CN111542806B

CN111542806B - 用于高体验质量的音频消息的有效传递和使用的方法和装置

Info

Publication number: CN111542806B
Application number: CN201880080159.5A
Authority: CN
Inventors: 阿德里安·姆塔萨; 哈拉尔德·福克斯; 贝恩德·切尔汗; 珍·普洛斯提斯
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2017-10-12
Filing date: 2018-10-10
Publication date: 2023-11-28
Anticipated expiration: 2038-10-10
Also published as: ZA202208716B; JP7072649B2; CN117714733A; AU2023274169A1; US11617016B2; CA3227626A1; ZA202208713B; ZA202208714B; US11006181B2; CN117692673A; EP3695306B1; ES2892407T3; US20230370684A1; CA3227600A1; US11949957B2; US20210306683A1; SG11202003222QA; CA3227601A1; TWI701945B; AU2018348713B2

Abstract

公开了一种用于虚拟现实VR、增强现实AR、混合现实MR或360度视频环境的方法和系统。所述系统可以被配置为：接收与要再现的音频视频场景相关联的至少一个视频流(106)；以及接收与要再现的音频视频场景相关联的至少一个第一音频流(116、316)，其中，所述系统包括：至少一个媒体视频解码器(102)，被配置为从至少一个视频流(106)中解码至少一个视频信号，以向用户表示所述音频视频场景；以及至少一个媒体音频解码器(112)，被配置为从至少一个第一音频流(116、316)中解码至少一个音频信号，以向用户表示所述音频视频场景；感兴趣区域ROI处理器(120)，被配置为：至少基于用户的当前视口和/或头部取向和/或运动数据(122)和/或视口元数据(131)和/或音频信息消息元数据(141)，决定是否要再现与至少一个ROI相关联的音频信息消息，其中，所述音频信息消息独立于所述至少一个视频信号和所述至少一个音频信号；以及在决定要再现信息消息的情况下，使得再现所述音频信息消息。

Description

用于高体验质量的音频消息的有效传递和使用的方法和装置

背景技术

1.介绍

在许多应用中，可听消息的传递可以改善媒体消费期间的用户体验。虚拟现实(VR)内容给出了此类消息最相关的应用之一。在VR环境中，或类似地在增强现实(AR)或混合现实(MR)或360度视频环境中，用户通常可以使用例如头戴式显示器(HMD)来将全360度内容可视化，并通过耳机(或类似地通过扬声器，包括取决于其位置的正确渲染)收听360度内容。用户通常可以在VR/AR空间中运动，或至少更改观看方向——视频的所谓“视口”。在使用经典再现系统(宽显示器)而不是HMD的360度视频环境中，可以使用远程控制设备来模拟用户在场景中的运动，并且适用类似的原理。应当注意的是，360度内容可以指的是用户可以从中选择(例如，通过用户的头部取向或使用遥控设备)的任何类型的内容，这些内容包括同一时刻的一个以上的视角。

与传统的内容消费相比，对于VR而言，内容创建者无法再控制用户在各个时刻——当前视口——可视化的内容。用户可以在每个时间实例从允许或可用的视口中自由选择不同视口。

VR内容消费的常见问题是以下风险：由于错误的视口选择，导致用户错过视频场景中的重要事件。为了解决此问题，引入了感兴趣区域(ROI)的概念，并考虑了用于发信号通知ROI的几种概念。尽管ROI通常用于向用户指示包含推荐视口在内的区域，但它也可以用于其他目的，例如：指示场景中存在新字符/对象；指示与场景中的对象相关联的可访问性功能；基本上是可以与组成视频场景的元素相关联的任何特征。例如，可以使用视觉消息(例如，“将头向左转动”)，并将其叠加在当前视口上。替代地，可以通过在ROI的位置处播放可听声音(自然声音或合成声音)来使用可听声音。这些音频消息被称为“Earcons”。

在本申请的上下文中，Earcon的概念将用于表征为发信号通知ROI所传达的音频消息，但是建议的信号通知和处理也可以用于一般性音频消息，其目的不是发信号通知ROI。这样的音频消息的一个示例由音频消息给出，该音频消息用于传达用户/用户在交互式AR/VR/MR环境中所具有的各种选项的信息/指示(例如，“跳过您左侧的盒子以进入房间X”)。此外，将使用VR示例，但本文献中描述的机制适用于任何媒体消费环境。

2.术语和定义

在技术领域中使用以下术语：

·元素：可以表示为例如音频对象、音频信道、基于场景的音频(高阶Ambisonics(HOA))或所有这些的组合的音频信号。

·兴趣的区域(ROI)：在一个时刻用户感兴趣的视频内容(或显示或模拟的环境)的一个区域。例如，这通常可以是球体上的一区域，也可以是2D地图中的多边形选择。ROI针对特定目的而标识特定区域，限定了所考虑对象的边界。

·用户位置信息：位置信息(例如x、y、z坐标)、取向信息(偏航、俯仰、侧倾)、运动方向和速度等。

·视口：当前显示和用户观看的球形视频的一部分。

·视点：视口的中心点。

·360度视频(也称为沉浸式视频或球形视频)：在本文献的上下文中，表示“视频内容”，该视频内容在同一时刻在一个方向上包含一个以上的视图(即，视口)。例如，可以使用全向相机或相机集来创建此类内容。在回放期间，观看者可以控制观看方向。

·自适应集包含媒体流或媒体流集。在最简单的情况下，一个自适应集包含该内容的所有音频和视频，但是为了减少带宽，可以将每个流分裂为不同的自适应集。一种常见的情况是具有一个视频自适应集和多个音频自适应集(对于每种支持的语言存在一个音频自适应集)。自适应集还可以包含副标题或任意元数据。

·表示允许适应集包含以不同方式编码的相同内容。在大多数情况下，将以多种比特率提供表示。这允许客户端请求它们可以播放的最高质量的内容，而不必等待缓冲。表示也可以使用不同的编解码进行编码，从而支持具有不同支持的编解码的客户端。

·媒体表示描述(MPD)是一种XML语法，其包含关于媒体段的信息、媒体段的关系、以及在媒体段之间进行选择所必需的信息。

在本申请的上下文中，自适应集的概念被更通用地使用，有时实际上是指表示。而且，通常将媒体流(音频/视频流)首先封装到媒体段中，该媒体段是客户端(例如，DASH客户端)播放的实际媒体文件。可以针对媒体段使用各种格式，例如类似于MPEG-4容器格式的ISO基本媒体文件格式(ISOBMFF)和MPEG-TS。媒体段的且在不同的表示/自适应集中的封装独立于此处描述的方法，这些方法适用于所有各种选项。

此外，本文档中对方法的描述可以以DASH服务器-客户端通信为中心，但是这些方法足够通用，以与其他传送环境一起使用，例如MMT、MPEG-2传输流、DASH-ROUTE、用于文件回放的文件格式等。

3.当前解决方案

当前的解决方案是：

[1].ISO/IEC 23008-3：015，Information technology--High efficiencycoding and media delivery in heterogeneous environments--Part 3：3DAudio(ISO/IEC 23008-3：015，信息技术——异构环境中的高效编码和媒体传递——第3部分：3D音频)

[2].N16950，Study of ISO/IEC DIS23000-20Omnidirectional Media Format(N16950，对ISO/IEC DIS23000-20全向媒体格式的研究)

[3].M41184，Use of Earcons for ROI Identification in 360-degree Video(M41184，在360度视频中使用Earcons进行ROI识别)。

ISO/IEC 23000-20全向媒体格式[2]给出了360度内容的传递机制。该标准规定了用于对全向图像、视频和相关音频进行编码、存储、传递和渲染的媒体格式。它提供了与用于音频和视频压缩的媒体编解码有关的信息、以及用于正确消费360度A/V内容的附加元数据信息。它还规定了关于传送信道的约束和要求，例如DASH/MMT上的流传输或基于文件的回放。

Earcon概念最早是在M41184“在360度视频中使用Earcons进行ROI识别”[3]中引入的，它提供了一种向用户发信号通知Earcon音频数据信号的机制。

然而，一些用户报告了对这些系统的令人失望的评论。通常，大量的Earcons令人讨厌。当设计者减少Earcon的数量时，一些用户会丢失重要的信息。值得注意的是，每个用户都有他/她自己的知识和经验水平，并且偏好适合于他/她自己的系统。仅给出一示例，每个用户都偏好以优选的音量(例如，与用于其他音频信号的音量无关)来再现Earcons。对于系统设计者来说，已经证明很难获得一种对所有可能的用户都提供良好的满意水平的系统。因此，已经寻找一种解决方案以允许增加几乎所有用户的满意度。

此外，已经证明，即使对于设计者来说，也很难重新配置系统。例如，他们在准备音频流的新版本和更新Earcons时遇到困难。

此外，受限制的系统对于功能施加了某些限制，例如不能将Earcons准确地识别到一个音频流中。此外，Earcons必须始终为活动的(active)，并且如果在不需要Earcons时被回放，则Earcons可能会给用户带来烦恼。

此外，Earcon空间信息不能被例如DASH客户端发信号通知或修改。在系统级别上轻松访问此信息可以启用附加功能，以提供更好的用户体验。

而且，在处理各种类型的Earcons(例如，自然声音、合成声音、在DASH Client中生成的声音等)时没有灵活性。

所有这些问题导致用户体验质量差。因此，更灵活的体系架构将是优选的。

发明内容

4.本发明根据示例，提供了一种用于虚拟现实VR、增强现实AR、混合现实MR或360度视频环境的系统，所述系统配置为：

接收与要再现的音频视频场景相关联的至少一个视频流；以及

接收与要再现的音频视频场景相关联的至少一个第一音频流，

其中，所述系统包括：

至少一个媒体视频解码器，被配置为从至少一个视频流中解码至少一个视频信号，以向用户表示音频视频场景；以及

至少一个媒体音频解码器，被配置为从至少一个第一音频流中解码至少一个音频信号，以向用户表示音频视频场景；

感兴趣区域ROI处理器，被配置为：

至少基于用户的当前视口和/或头部取向和/或运动数据和/或视口元数据和/或音频信息消息元数据，决定是否要再现与至少一个ROI相关联的音频信息消息，其中，所述音频信息消息独立于

所述至少一个视频信号和所述至少一个音频信号；以及在决定要再现信息消息的情况下，使得再现所述音频信息消息。

根据示例，提供了一种用于虚拟现实VR、增强现实AR、混合现实MR或360度视频环境的系统，所述系统被配置为：

接收至少一个视频流；以及接收至少一个第一音频流，

其中，所述系统包括：

至少一个媒体视频解码器，被配置为从所述至少一个视频流中解码至少一个视频信号，以向用户表示VR、AR、MR或360度视频环境场景；以及

至少一个媒体音频解码器，被配置为从所述至少一个第一音频流中解码至少一个音频信号，以向用户表示音频场景；

感兴趣区域ROI处理器，被配置为：

基于用户的当前视口和/或头部取向和/或运动数据和/或视口元数据和/或音频信息消息元数据，决定是否要再现与至少一个ROI相关联的音频信息消息，其中，所述音频信息消息是earcon；并且在决定要再现信息消息的情况下，使得再现所述音频信息消息。

所述系统可以包括：

元数据处理器，被配置为：接收和/或处理和/或操控音频信息消息元数据，以便在决定要再现所述信息消息时，使得根据所述音频信息消息元数据来再现所述音频信息消息。

所述ROI处理器可以被配置为：

接收用户的当前视口和/或位置和/或头部取向和/或运动数据和/或其他与用户相关的数据；以及

从所述至少一个视频流接收与至少一个视频信号相关联的视口元数据，所述视口元数据定义了至少一个ROI；以及

基于用户的当前视口和/或位置和/或头部取向和/或运动数据以及所述视口元数据和/或其他标准中至少之一，决定是否要再现与所述至少一个ROI相关联的音频信息消息。

所述系统可以包括：

元数据处理器，被配置为：接收和/或处理和/或操控描述所述音频信息消息的音频信息消息元数据和/或描述编码在所述至少一个音频流中的所述至少一个音频信号的音频元数据和/或所述视口元数据，以便使得根据所述音频信息消息元数据和/或描述编码在所述至少一个音频流中的所述至少一个音频信号的音频元数据和/或所述视口元数据来再现所述音频信息消息。

所述ROI处理器可以被配置为：

在所述至少一个ROI在用户的当前视口和/或位置和/或头部取向和/或运动数据之外的情况下，除了再现所述至少一个音频信号之外，还使得再现与所述至少一个ROI相关联的音频信息消息；以及

在所述至少一个ROI在用户的当前视口和/或位置和/或头部取向和/或运动数据内的情况下，禁止和/或去激活与所述至少一个ROI相关联的音频信息消息的再现。

所述系统可以被配置为：

接收至少一个附加音频流，所述至少一个音频信息消息被编码在所述至少一个附加音频流中，

其中，所述系统还包括：

至少一个复用器或多路复用器，用于在所述元数据处理器和/或所述ROI处理器和/或另一处理器的控制下，基于所述ROI处理器提供的要再现所述至少一个音频信息消息的决定，将所述至少一个附加音频流的分组与所述至少一个第一音频流的分组合并到一个流中，以使得除了所述音频场景之外还再现所述音频信息消息。

所述系统可以被配置为：

接收描述编码在所述至少一个音频流中的所述至少一个音频信号的至少一个音频元数据；

从至少一个音频流接收与至少一个音频信息消息相关联的音频信息消息元数据；

在决定要再现所述信息消息的情况下，修改所述音频信息消息元数据以使得除了再现所述至少一个音频信号之外，还能够再现所述音频信息消息。

所述系统可以被配置为：

从所述至少一个音频流接收与至少一个音频信息消息相关联的音频信息消息元数据；

在决定要再现所述音频信息消息的情况下，修改所述音频信息消息元数据以使得除了再现所述至少一个音频信号之外，还能够再现与所述至少一个ROI相关联的音频信息消息；以及

修改描述所述至少一个音频信号的所述音频元数据，以允许合并所述至少一个第一音频流和所述至少一个附加音频流。

所述系统可以被配置为：

在决定要再现所述音频信息消息的情况下，将所述音频信息消息元数据提供给合成音频生成器以创建合成音频流，以便将所述音频信息消息元数据与所述合成音频流相关联，并将所述合成音频流和所述音频信息消息元数据提供给多路复用器或复用器，以允许合并所述至少一个音频流和所述合成音频流。

所述系统可以被配置为：

从所述至少一个附加音频流获得其中编码有所述音频信息消息的至少一个附加音频流。

所述系统可以包括：

音频信息消息元数据生成器，被配置为：基于要再现与所述至少一个ROI相关联的音频信息消息的决定来生成音频信息消息元数据。

所述系统可以被配置为：

存储所述音频信息消息元数据和/或所述音频信息消息流以供将来使用。

所述系统可以包括：

合成音频生成器，被配置为：基于与所述至少一个ROI相关联的音频信息消息元数据来合成音频信息消息。

所述元数据处理器被配置为：基于所述音频元数据和/或音频信息消息元数据，将所述音频信息消息流的分组与所述至少一个第一音频流的分组合并到一个流中，以获得所述音频信息消息向所述至少一个音频流的添加。

所述音频信息消息元数据可以被编码在包括以下项中的至少一项的配置帧和/或数据帧中：

识别标签，

唯一标识所述音频信息消息元数据的再现的整数，

消息类型，

状态，

对场景的依赖性/非依赖性的指示，

位置数据，

增益数据，

对相关联文本标签的存在的指示，

可用语言的数量，

音频信息消息的语言，

数据文本长度，

相关联的文本标签的数据文本，和/或

音频信息消息的描述。

所述元数据处理器和/或所述ROI处理器可以被配置为执行以下操作中的至少一项：

从流中提取音频信息消息元数据；

修改音频信息消息元数据以激活所述音频信息消息和/或设置/更改所述音频信息消息的位置；

将元数据嵌回流中；

将流馈送给附加媒体解码器；

从至少一个第一音频流中提取音频元数据；

从附加流中提取音频信息消息元数据；

修改至少一个第一音频流的音频元数据，以考虑到音频信息消息的存在并允许合并；

基于从所述ROI处理器接收到的信息，将流馈送给多路复用器或复用器以对其进行多路复用或复用。

所述ROI处理器可以被配置为：对其中编码有所述音频信息消息的附加音频流和/或音频信息消息元数据执行本地搜索，并且在未检索到的情况下，向远程实体请求所述附加音频流和/或音频信息消息元数据。

所述ROI处理器被配置为：对附加音频流和/或音频信息消息元数据执行本地搜索，并且在未检索到的情况下，使合成音频生成器生成所述音频信息消息流和/或音频信息消息元数据。

所述系统可以被配置为：

接收所述至少一个附加音频流，所述至少一个附加音频流包括与所述至少一个ROI相关联的至少一个音频信息消息；以及

如果所述ROI处理器决定要再现与所述至少一个ROI相关联的音频信息消息，则对所述至少一个附加音频流进行解码。

所述系统可以包括：

至少一个第一音频解码器，用于从至少一个第一音频流中解码所述至少一个音频信号；

至少一个附加音频解码器，用于从附加音频流中解码所述至少一个音频信息消息；以及

至少一个混合器和/或渲染器，用于将来自所述至少一个附加音频流的音频信息消息与来自所述至少一个第一音频流的至少一个音频信号混合和/或叠加。

所述系统可以被配置为：跟踪与关联于所述音频信息消息的再现的历史数据和/或统计数据相关联的度量，以便如果所述度量超过预定阈值，则禁用所述音频信息消息的再现。

ROI处理器的决定可以基于相对于ROI的位置对用户的当前视口和/或位置和/或头部取向和/或运动数据122的预测。

所述系统可以被配置为：接收至少一个第一音频流，并且在决定要再现信息消息时，向远程实体请求音频消息信息流。

所述系统可以被配置为确立：是否同时再现两个音频信息消息，或者是否相对于较低优先级的音频信息消息来优先选择较高优先级的音频信息消息进行再现。

所述系统可以被配置为：基于音频信息消息在音频流中的地址和/或位置，在编码在一个附加音频流中的多个音频信息消息中识别所述音频信息消息。

所述音频流可以被格式化为MPEG-H 3D音频流格式。

所述系统可以被配置为：

接收关于多个自适应集的可用性的数据，可用的自适应集包括用于所述至少一个第一音频流的至少一个音频场景自适应集以及用于至少一个附加音频流的至少一个音频消息自适应集，所述至少一个附加音频流包含至少一个音频信息消息；

基于所述ROI处理器的决定，创建选择数据，所述选择数据识别要检索哪个自适应集，所述可用的自适应集包括至少一个音频场景自适应集和/或至少一个音频消息自适应集；以及

请求和/或检索由所述选择数据识别的自适应集的数据，

其中，每个自适应集对针对不同比特率的不同编码进行分组。

所述系统可以使得所述至少一个如果其元素包括基于HTTP、DASH、客户端的动态自适应流传输，和/或被配置为使用ISO基础媒体文件格式ISO BMFF或MPEG-2传输流MPEG-2TS来检索每个自适应集的数据。

所述ROI处理器可以被配置为：检查所述ROI与当前视口和/或位置和/或头部取向和/或运动数据之间的对应关系，以便检查所述ROI是否在所述当前视口中表示，并且在所述ROI在所述当前视口和/或位置和/或头部取向和/或运动数据之外的情况下，将所述ROI的存在以声音的形式发信号通知给用户。

所述ROI处理器可以被配置为：检查所述ROI与当前视口和/或位置和/或头部取向和/或运动数据之间的对应关系，以便检查所述ROI是否在所述当前视口中表示，并且在所述ROI在所述当前视口和/或位置和/或头部取向和/或运动数据内的情况下，不将所述ROI的存在以声音的形式发信号通知给用户。

所述系统可以被配置为：从远程实体接收与所述视频环境场景相关联的至少一个视频流和与所述音频场景相关联的至少一个音频流，其中，所述音频场景与所述视频环境场景相关联。

所述ROI处理器可以被配置为：在要再现的多个音频信息消息中选择在第二音频信息消息之前再现一个第一音频信息消息。

所述系统可以包括：高速缓冲存储器，存储从远程实体接收或合成生成的音频信息消息，以在不同的时间实例处重复使用所述音频信息消息。

所述音频信息消息可以是earcon。

所述至少一个视频流和/或所述至少一个第一音频流可以分别是所述当前视频环境场景和/或视频音频场景的一部分，并且独立于当前视频环境场景和/或视频音频场景中的用户的当前视口和/或头部取向和/或运动数据。

所述系统可以被配置为：分别与所述音频流和/或视频环境流相关联地向远程实体请求所述至少一个第一音频流和/或至少一个视频流，并且基于用户的当前视口和/或头部取向和/或运动数据来再现所述至少一个音频信息消息。

所述系统可以被配置为：分别与所述音频流和/或视频环境流相关联地向远程实体请求所述至少一个第一音频流和/或至少一个视频流，并且基于用户的当前视口和/或头部取向和/或运动数据来向远程实体请求所述至少一个音频信息消息。

所述系统可以被配置为：分别与所述音频流和/或视频环境流相关联地向远程实体请求所述至少一个第一音频流和/或至少一个视频流，并且基于用户的当前视口和/或头部取向和/或运动数据来合成所述至少一个音频信息消息。

所述系统可以被配置为：检查用于再现所述音频信息消息的附加标准中的至少一个附加标准，所述标准还包括用户的选择和/或用户的设置。

所述系统还被配置为：检查用于再现所述音频信息消息的附加标准中的至少一个附加标准，所述标准还包括所述系统的状态。

所述系统可以被配置为：检查用于再现所述音频信息消息的附加标准中的至少一个附加标准，所述标准还包括已被执行的音频信息消息再现的数量。

所述系统可以被配置为：检查用于再现所述音频信息消息的附加标准中的至少一个附加标准，所述标准还包括从远程实体获得的数据流中的标志。

根据一个方面，提供了一种系统，所述系统包括：客户端被配置为根据以上和/或以下任一示例的系统；以及远程实体，被配置为用于传送至少一个视频流和至少一个音频流的服务器。

所述远程实体可以被配置为：在数据库、内联网、互联网和/或地理网络中搜索至少一个附加音频流和/或音频信息消息元数据，并且在检索到的情况下，传送所述至少一个附加音频流和/或所述音频信息消息元数据。

远程实体可以被配置为：合成至少一个附加音频流，和/或生成音频信息消息元数据。

根据一个方面，可以提供一种用于虚拟现实VR、增强现实AR、混合现实MR或360度视频环境的方法，所述方法包括：

从至少一个视频音频场景中解码至少一个视频信号，以向用户再现；

从所述视频音频场景中解码至少一个音频信号以便再现；

基于用户的当前视口和/或头部取向和/或运动数据和/或元数据，决定是否要再现与至少一个ROI相关联的音频信息消息，其中，所述音频信息消息独立于所述至少一个视频信号和所述至少一个音频信号；以及

在决定要再现所述信息消息的情况下，使得再现所述音频信息消息。

从至少一个视频流中解码至少一个视频信号，以向用户表示VR、AR、MR或360度视频环境场景；

从至少一个第一音频流中解码至少一个音频信号，以向用户表示音频场景；

基于用户的当前视口和/或头部取向和/或运动数据和/或元数据，决定是否要再现与至少一个ROI相关联的音频信息消息，其中，所述音频信息消息是earcon；并且

以上和/或以下方法可以包括：

接收和/或处理和/或操控元数据，以便在决定要再现信息消息的情况下，使得根据所述元数据来再现所述音频信息消息，以使所述音频信息消息是音频场景的一部分。

以上和/或以下方法可以包括：

再现音频视频场景；以及

基于用户的当前视口和/或头部取向和/或运动数据和/或元数据，决定还再现所述音频信息消息。

以上和/或以下方法可以包括：

再现音频视频场景；以及

在所述至少一个ROI在用户的当前视口和/或位置和/或头部取向和/或运动数据之外的情况下，除了再现所述至少一个音频信号之外，还使得再现与所述至少一个ROI相关联的音频信息消息；和/或

接收至少一个视频流；以及

接收至少一个第一音频流，

其中，所述系统包括：

感兴趣区域ROI处理器，被配置为：

基于用户的当前视口和/或头部取向和/或运动数据和/或元数据，决定是否要再现与至少一个ROI相关联的音频信息消息；并且

在决定要再现信息消息的情况下，使得再现所述音频信息消息。

在示例中，提供了一种用于虚拟现实VR、增强现实AR、混合现实MR或360度视频环境的系统，所述系统被配置为：

接收至少一个视频流；以及

接收至少一个第一音频流，

其中，所述系统包括：

感兴趣区域ROI处理器，被配置为：基于用户的当前视口和/或位置和/或头部取向和/或运动数据以及视口元数据和/或其他标准，决定是否要再现与至少一个ROI相关联的音频信息消息；以及

元数据处理器，被配置为：接收和/或处理和/或操控元数据，以便在决定要再现信息消息的情况下，使得根据所述元数据来再现所述音频信息消息，以使所述音频信息消息是音频场景的一部分。

根据一个方面，提供了一种存储指令的非暂时性存储单元，所述指令在由处理器执行时使所述处理器执行以上和/或以下所述的方法。

附图说明

图1至图5、图5a和图6示出了实现的示例；

图7示出了根据示例的方法；

图8示出了实现的示例。

具体实施方式

6.1一般示例

图1示出了用于虚拟现实VR、增强现实AR、混合现实MR或360度视频环境的系统100的示例。系统100可以例如与内容消费设备(例如，头戴式显示器等)相关联，该内容消费设备在与用户的头部密切关联的球形或半球形显示器中再现视觉数据。

系统100可以包括至少一个媒体视频解码器102和至少一个媒体音频解码器112。系统100可以接收至少一个视频流106，在至少一个视频流106中视频信号被编码以用于向用户表示VR、AR、MR或360度视频环境场景118a。系统100可以接收至少一个第一音频流116，在第一音频流116中音频信号被编码以用于向用户表示音频场景118b。

系统100还可以包括感兴趣区域ROI处理器120。ROI处理器120可以处理与ROI相关联的数据。一般而言，可以在视口元数据131中发信号通知ROI的存在。视口元数据1 31可以被编码在视频流106中(在其他示例中，视口元数据1 31可以被编码在其他流中)。视口元数据131可以包括例如与ROI相关联的位置信息(例如，坐标信息)。例如，在示例中，ROI可以理解为矩形(由诸如球形视频中的矩形的四个顶点之一的位置和矩形的边的长度之类的坐标所标识)。ROI通常被投影在球形视频中。ROI通常与可见元素相关联，该可见元素被认为(根据特定配置)是用户感兴趣的。例如，ROI可以与内容消费设备所显示的矩形区域相关联(或者以某种方式对用户可见)。

ROI处理器120可以尤其控制媒体音频解码器112的操作。

ROI处理器120可以获得与用户的当前视口和/或位置和/或头部取向和/或运动相关联的用户的当前视口和/或位置和/或头部取向和/或运动数据122(在某些示例中，与虚拟位置相关联的虚拟数据也可以理解为数据122的一部分)。这些用户的当前视口和/或位置和/或头部取向和/或运动数据122可以至少部分地例如由内容消费设备或由定位/检测单元来提供。

ROI处理器120可以检查ROI与用户的当前视口和/或位置(实际的或虚拟的)和/或头部取向和/或运动数据122之间的对应关系(在示例中，可以使用其他标准)。例如，ROI处理器可以检查ROI是否在当前视口中表示。如果ROI仅部分地在视口中表示(例如，基于用户的头部运动)，则可以确定例如是否在屏幕中显示了最小百分比的ROI。在任何情况下，ROI处理器120都能够识别出ROI是否未被表示或对用户不可见。

如果ROI被认为在用户的当前视口和/或位置和/或头部取向和/或运动数据122之外，则ROI处理器120可以以听觉方式向用户发信号通知ROI的存在。例如，除了从至少一个第一音频流116中解码的音频信号之外，ROI处理器120还可以请求再现音频信息消息(Earcon)。

在ROI被认为在用户的当前视口和/或位置和/或头部取向和/或运动数据122内的情况下，ROI处理器可以决定不再现音频信息消息。

音频信息消息可以被编码在音频流140(音频信息消息流)中，音频流140可以与音频流116相同或不同。音频流140可以由系统1 00生成，或者可以从外部实体(例如，服务器)获得。可以定义诸如音频信息消息元数据141之类的音频元数据，以描述音频信息流140的属性。

音频信息消息可以叠加(或混合、多路复用、合并、组合或组成)到编码在音频流116中的信号上，或者可以例如仅基于ROI处理器120的决定而不被选择。ROI处理器120的决定可以基于视口和/或位置和/或头部取向和/或运动数据122、元数据(诸如视口元数据131或其他元数据)和/或其他标准(例如，选择、系统的状态、已被执行的音频信息消息再现的数量、特定的功能和/或操作、可以禁用使用Earcons的用户优选设置等)。

可以实现元数据处理器132。元数据处理器132可以例如被插入在ROI处理器120(可以通过元数据处理器132来控制ROI处理器120)和媒体音频解码器112(可以从元数据处理器控制媒体音频解码器112)之间。在示例中，元数据处理器是ROI处理器120的一部分。元数据处理器132可以接收、生成、处理和/或操控音频信息消息元数据141。元数据处理器132还可以处理和/或操控音频流116的元数据，例如将音频流116与音频信息消息流140混合。另外地或替代地，元数据处理器132可以例如从服务器(例如，远程实体)接收音频流116的元数据。

因此，元数据处理器132可以改变音频场景再现，并且使音频信息消息适应于特定情况和/或选择和/或状态。

这里讨论一些实现的优点。

可以例如使用音频信息消息元数据141来准确地识别音频信息消息。

可以例如通过修改元数据(例如，通过元数据处理器132)来容易地激活/去激活音频信息消息。可以基于当前视口和ROI信息(以及要实现的特殊功能或效果)来启用/禁用音频信息消息。

例如，音频信息消息(包含例如状态、类型、空间信息等)可以通过常见的设备——例如通过HTTP的动态自适应流传输(DASH)客户端——而被轻松地发信号通知并修改。

因此，在系统级别上轻松地访问音频信息消息(包含例如状态、类型、空间信息等)可以启用附加功能，以提供更好的用户体验。因此，系统100可以容易地被定制，并且允许可以由独立于系统100的设计者的人员执行的进一步的实现(例如，特定应用)。

此外，在处理各种类型的音频信息消息(例如，自然声音、合成声音、在DASH客户端中生成的声音等)时实现了灵活性。

其他优点(其在以下示例中也将显而易见)：

·在元数据中使用文本标签(作为用于显示内容或生成Earcon的基础)

·基于设备的Earcon位置的自适应(如果设备是HMD，则希望实现准确的位置，而如果设备是扬声器，可能较好的方法是直接使用一个扬声器中的不同位置)。

·不同的设备类别：

о可以通过发信号通知Earcon为活动的方式来创建Earcon元数据

о一些设备将只知道如何解析元数据并再现Earcon

о一些额外具有更佳ROI处理器的更新型设备可以决定在不需要ROI处理器时去激活ROI处理器

·关于自适应集的更多信息和附加图形。

因此，在VR/AR环境中，用户通常可以使用例如头戴式显示器(HMD)来可视化全360度内容，并通过耳机收听全360度内容。用户通常可以在VR/AR空间中运动，或至少更改观看方向——视频的所谓“视口”。与传统的内容消费相比，对于VR而言，内容创建者无法再控制用户在各个时刻——当前视口——可视化的内容。用户可以在每个时间实例从允许或可用视口中自由地选择不同视口。为了向用户指示感兴趣区域(ROI)，可以通过在ROI的位置处播放可听声音(自然声音或合成声音)来使用可听声音。这些音频消息被称为“Earcons”。本发明提出了一种用于有效地传送这种消息的解决方案，并提出了一种优化的接收器行为，以利用Earcons而不影响用户体验和内容消费。这导致体验质量的提高。这可以通过在系统级别使用专用的元数据和元数据操控机制来实现，以在最终场景中启用或禁用Earcons。

元数据处理器132可以被配置为接收和/或处理和/或操控音频信息消息元数据141，以便在决定要再现信息消息时，使得根据音频信息消息元数据141来再现音频信息消息。音频信号(例如，用于表示场景的信号)可以被理解为音频场景(例如，从远程服务器下载的音频场景)的一部分。音频信号通常对于音频场景在语义上是有意义的，并且一起出现的所有音频信号构成了音频场景。音频信号可以一起编码在一个音频比特流中。音频信号可以由内容创建者来创建，和/或可以与特定场景相关联，和/或可以独立于ROI。

音频信息消息(例如，earcon)可以被理解为对音频场景在语义上没有意义。该音频信息消息可以被理解为可以人工生成的独立声音，例如录制的声音、人的录音机声音等。它也可以取决于设备(例如，在按压遥控器上的按钮时所生成的系统声音)。音频信息消息(例如，earcon)可以被理解为意在在场景中引导用户，而不是场景的一部分。

音频信息消息可以独立于如上所述的音频信号。根据不同的示例，它可以被包括在相同的比特流中，或者可以在单独的比特流中发送，或者可以由系统100生成。

由多个音频信号组成的音频场景的示例可以是：

--音频场景，包含以下5个音频信号的音乐厅：

---音频信号1：钢琴的声音

---音频信号2：歌手的声音

---音频信号3：观众的人员1部分的声音

---音频信号4：观众的人员2部分的声音

---音频信号5：墙上的时钟产生的声音

音频信息消息可以是例如诸如“看向钢琴演奏者”(钢琴是ROI)之类的记录声音。如果用户已经在看钢琴演奏者，则音频消息不会被回放。

另一示例：在用户后面打开门(例如，虚拟门)，并且新的人进入房间；用户并未看向那里。基于此(有关VR环境的信息，例如虚拟位置)，可以触发Earcon，以通知用户后面发生了一些事情。

在示例中，当用户改变环境时，每个场景(例如，具有相关的音频流和视频流)被从服务器发送到客户端。

音频信息消息可以是灵活的。特别是：

-音频信息消息可以位于与要再现的场景相关联的同一音频流中；

-音频信息消息可以位于附加音频流中；

-音频信息消息可能会完全丢失，但是只有描述Earcons的元数据可以出现在流中，并且可以在系统中生成音频信息消息；

-音频信息消息以及描述音频信息消息的元数据可能会完全丢失，在这种情况下，系统会基于流中与ROI有关的其他信息来生成这两者(earcon和元数据)。

音频信息消息通常独立于音频场景的任何音频信号部分，并且不用于表示音频场景。

下面提供了体现系统100或包括体现系统100的部分的系统示例。

6.2图2的示例

图2示出了系统200(其可以至少包含体现系统100的一部分)，系统200在这里被表示为细分为服务器侧202、媒体传送侧203、客户端侧204和/或媒体消费设备侧206。服务器侧202、媒体传送侧203、客户端侧204和媒体消费设备侧206中的每一个都是系统本身，并且可以与任何其他系统组合以获得另一系统。这里，即使可以将音频信息消息概括为任何种类的音频信息消息，音频信息消息也被称为Earcons。

客户端侧204可以通过媒体传送侧203从服务器侧202接收至少一个视频流106和/或至少一个音频流116。

媒体传送侧203可以例如基于诸如云系统、网络系统、地理通信网络之类的通信系统、或公知的媒体传输格式(MPEG-2TS传输流、DASH、MMT、DASH ROUTE等)、或甚至是基于文件的存储。媒体传送侧203可以能够通过以下方式来执行通信：以电信号的形式(例如，通过电缆、无线等)、和/或通过将分组(例如，根据特定的通信协议)与其中编码有音频信号和视频信号的比特流一起分发。然而，媒体传送侧203可以通过点对点链接、串行连接或并行连接等来体现。媒体传送侧203可以例如根据诸如WiFi、蓝牙等的协议来执行无线连接。

客户端侧204可以与媒体消费设备(例如，HND)相关联，例如，用户头部可以插入该媒体消费设备(然而，可以使用其他设备)中。因此，用户可以基于由服务器侧202提供的视频数据和音频数据来体验由客户端侧204准备的视频音频场景(例如，VR场景)。然而，其他实现也是可行的。

服务器侧202在这里被表示为具有媒体编码器240(其可以覆盖视频编码器、音频编码器、副标题(subtitle)编码器等)。该媒体编码器240可以例如与要表示的音频视频场景相关联。音频场景可以例如用于重建环境，并且与至少一个音频流116和至少一个视频流106相关联，所述至少一个音频流116和至少一个视频流106可以基于用户在VR、AR、MR环境中所达到的位置(或虚拟位置)进行编码。一般而言，至少一个视频流106对球形图像进行编码，球形图像的仅一部分(视口)根据其位置和运动而被用户看到。音频流116包含音频数据，该音频数据参与音频场景表示并且旨在被用户听到。根据示例，音频流116可以包括音频元数据236(其指的是旨在参与音频场景表示的至少一个音频信号)和/或Earcon元数据(音频信息消息元数据)141(其可以描述仅将在某些情况下再现的Earcons)。

系统100在这里被表示为在客户端侧204。为了简单起见，在图2中未表示出媒体视频解码器102。

为了准备再现Earcon(或其他音频信息消息)，可以使用Earcon元数据141。Earcon元数据141可以被理解为描述并提供与Earcon相关联的属性的元数据(其可以编码在音频流中)。因此，Earcon(如果要再现的话)可以基于Earcon元数据141的属性。

有利地，元数据处理器132可以具体地实现以用于处理Earcon元数据141。例如，元数据处理器132可以控制Earcon元数据141的接收、处理、操控和/或生成。当被处理时，Earcon元数据可以被表示为修改后的Earcon元数据234。例如，可行的是操控Earcon元数据，以获得特定的效果和/或以执行音频处理操作，例如多路复用或复用，以用于将Earcon添加到要在音频场景中表示的音频信号。

元数据处理器132可以控制与至少一个音频流116相关联的音频元数据236的接收、处理、操控。当被处理时，音频元数据236可以被表示为修改后的音频元数据238。

可以将修改后的Earcon元数据234和修改后的音频元数据238提供给媒体音频解码器112(或在一些示例中，提供给多个解码器)，以向用户再现音频场景118b。

在示例中，可以提供合成音频生成器246和/或存储设备作为可选组件。生成器可以合成音频流(例如，用于生成未编码在流中的Earcon)。存储设备允许(例如，在高速缓冲存储器中)存储由生成器生成的和/或在接收到的音频流中获得的Earcon流(例如，供将来使用)。

因此，ROI处理器120可以基于用户的当前视口和/或位置和/或头部取向和/或运动数据122来决定Earcon的表示。然而，ROI处理器120还可以基于涉及其他方面的标准来做出其决定。

例如，ROI处理器可以基于其他条件(例如，用户的选择或更高层的选择，例如基于旨在消费的特定应用)启用/禁用Earcon再现。对于视频游戏应用，例如，对于高视频游戏级别，可以避免Earcon或其他音频信息消息。这可以由元数据处理器通过禁用Earcon元数据中的Earcons来简单地获得。

此外，可以根据以下系统的状态来禁用Earcon：例如，如果Earcon已被再现，则可以禁止其重复。计时器可以例如用于避免太快的重复。

ROI处理器120还可以请求对一系列Earcons(例如，与场景中的所有ROI相关联的Earcons)的受控再现，例如，以用于对用户关于他/她可以看到的元素进行引导。元数据处理器132可以控制该操作。

ROI处理器120还可以修改Earcon位置(即，场景中的空间位置)或Earcon类型。例如，某些用户可能偏好在ROI的确切定位/位置处回放一种特定的声音作为Earcon，而其他用户可能偏好始终在一个固定位置(例如，中央或顶部位置等)播放Earcon作为ROI所在的位置的声音指示。

可以修改对Earcon的再现的增益(例如，以获得不同的音量)。例如，此决定可以遵从用户的选择。值得注意的是，基于ROI处理器的决定，元数据处理器132将通过在与Earcon相关联的Earcon元数据中修改与增益相关联的特定属性来执行增益修改。

VR、AR、MR环境的原始设计者可能还不知道将如何实际再现Earcons。例如，用户的选择可以修改Earcons的最终渲染。这种操作可以例如由元数据处理器132控制，该元数据处理器132可以基于ROI处理器的决定来修改Earcon元数据141。

因此，对与Earcon相关联的音频数据执行的操作因此原则上独立于用于表示音频场景的至少一个音频流116，并且可以被不同地管理。甚至可以独立于构成音频视频场景的音频流116和视频流106来生成Earcon，并且Earcon可以由不同且独立的创业团体来产生。

因此，该示例允许增加用户的满意度。例如，用户可以通过禁用音频信息消息等(例如通过修改音频信息消息的音量)来执行他/她自身的选择。因此，每个用户可以具有更适合他/她的偏好的体验。此外，所获得的体系架构更灵活。可以例如通过独立于音频流来修改元数据、和/或通过独立于元数据并独立于主音频流来修改音频信息消息流，容易地更新音频信息消息。

所获得的体系结构还与传统系统兼容：例如，传统音频信息消息流可以与新的音频信息消息元数据相关联。在不存在合适的音频信息消息流的情况下，在示例中，后者可以容易地被合成(并且例如被存储以用于后续使用)。

ROI处理器可以跟踪与关联于音频信息消息的再现的历史数据和/或统计数据相关联的度量，以便如果度量超过预定阈值，则禁用音频信息消息的再现(这可以用作标准)。

作为标准，ROI处理器的决定可以基于相对于ROI的位置对用户的当前视口和/或位置和/或头部取向和/或运动数据122的预测。

ROI处理器还可以被配置为：接收至少一个第一音频流116；并且在决定要再现信息消息时，向远程实体请求音频消息信息流。

ROI处理器和/或元数据生成器还可以被配置为确立：是否同时再现两个音频信息消息，或者是否相对于较低优先级的音频信息消息来优先选择较高优先级的音频信息消息进行再现。为了执行该决定，可以使用音频信息元数据。优先级可以例如由元数据处理器132基于音频信息消息元数据中的值来获得。

在一些示例中，媒体编码器240可以被配置为在数据库、内联网、互联网和/或地理网络中搜索附加音频流和/或音频信息消息元数据，并且在检索的情况下，传送附加音频流和/或音频信息消息元数据。例如，可以对客户端侧的请求执行搜索。

如上所述，这里提出了一种解决方案，用于将Earcon消息与音频内容一起有效地传送。获得了优化的接收器行为，以利用音频信息消息(例如，Earcons)，而不会影响用户体验和内容消费。这将导致体验质量的提高。

这可以通过在系统级别使用专用的元数据和元数据操控机制来实现，以在最终的音频场景中启用或禁用音频信息消息。元数据可以与任何音频编解码一起使用，并且可以以很好的方式补充下一代音频编解码元数据(例如，MPEG-H音频元数据)。

传送机制可以是多种的(例如，通过DASH/HLS进行流传输、通过DASH-ROUTE/MMT/MPEG-2TS进行广播、文件回放等)。在此应用中，考虑了DASH传送，但是所有概念对于其他传递选项均有效。

在大多数情况下，音频信息消息不会在时域上重叠，即在特定时间点，仅定义一个ROI。然而，考虑到更高级的用例，例如在用户可以基于其选择/运动来更改内容的交互式环境中，也可存在需要多个ROI的用例。为此，在一个时刻可能需要一个以上的音频信息消息。因此，描述了用于支持所有不同用例的通用解决方案。

音频信息消息的传送和处理应补充下一代音频的现有传送方法。

传输针对在时域上独立的若干个ROI的多个音频信息消息的一种方法是：将所有音频信息消息一起混合到一个音频元素(例如，音频对象)，其中相关联的元数据描述不同时间实例处每个音频信息消息的空间位置。由于音频信息消息不会在时间上重叠，因此可以在一个共享的音频元素中对它们进行独立寻址。此音频元素可以在音频信息消息之间包含静默(或不包含音频数据)，即，每当没有音频信息消息时。在这种情况下，可以应用以下机制：

·通用音频信息消息音频元素可以在同与之相关的音频场景相同的基本流(ES)中传送，或者通用音频信息消息音频元素可以在一个辅助流(依赖于或不依赖于主流)中传送。

·如果在依赖于主流的辅助流中传送Earcon音频元素，则每当在视觉场景中出现新的ROI时，客户端都可以请求附加流。

·在示例中，客户端(例如，系统100)可以在需要Earcon的场景之前请求流。

·在示例中，客户端可以基于当前视口请求流，即，如果当前视口与ROI匹配，则客户端可以决定不请求附加Earcon流。

·如果可以在独立于主流的辅助流中传送Earcon音频元素，则只要在视觉场景中出现新的ROI，客户端就可以像以前一样请求附加流。此外，可以使用两个媒体解码器和一通用的渲染/混合步骤来处理两个(或更多个)流，以将解码后的Earcon音频数据混合到最终的音频场景中。替代地，可以使用元数据处理器来修改两个流的元数据，并可以使用“流合并器”来合并两个流。以下描述了这种元数据处理器和流合并器的可能实现。

在替代示例中，时域独立或时域重叠的若干个ROI的多个Earcon可以在多个音频元素(例如，音频对象)中传送，并与主音频场景一起嵌入一个基本流，或嵌入多个辅助流，例如，一个ES中的每个Earcon、或基于共享性质的一个ES中的一组Earcon(例如，位于左侧的所有Earcon共享一个流)。

·如果所有Earcon音频元素都在依赖于主流的若干个辅助流(例如，每个流一个Earcon或每个流一组Earcon)中传送，则例如，每当与该Earcon相关联的ROI存在于视觉场景中时，客户端可以请求包含所需的Earcon的一个附加流。

·在示例中，客户端可以在需要Earcon的场景之前请求具有该Earcon的流(例如，即使ROI还不是场景的一部分，则基于用户的运动，ROI处理器120也可以执行决定)。

·在示例中，客户端可以基于当前视口来请求流，如果当前视口与ROI匹配，则客户端可以决定不请求附加Earcon流。

·如果一个Earcon音频元素(或一组Earcon)在独立于主流的辅助流中被传送，则在示例中，每当新的ROI出现在视觉场景中，客户端就可以像以前一样请求附加流。此外，可以使用两个媒体解码器和一通用的渲染/混合步骤来处理两个(或更多个)流，以将解码后的Earcon音频数据混合到最终的音频场景中。替代地，可以使用元数据处理器来修改两个流的元数据，并可以使用“流合并器”来合并两个流。以下描述了这种元数据处理器和流合并器的可能实现。

替代地，可以使用一个常规(通用)Earcon来发信号通知一个音频场景中的所有ROI。这可以通过使用相同视频内容来实现，其中不同空间信息与不同的时间实例处的音频内容相关联。在这种情况下，ROI处理器120可以：请求元数据处理器132收集与场景中的ROI相关联的Earcons，并顺序地控制Earcons的再现(例如，在用户的选择下或者在更高层的应用请求下)。

替代地，一个Earcon只能传输一次并缓存在客户端中。客户端可以针对一个音频场景中的所有ROI重新使用一个Earcon，其中不同空间信息与不同的时间实例处的音频内容相关联。

替代地，可以在客户端中综合生成Earcon音频内容。除此之外，可以使用元数据生成器来创建必要的元数据，以发信号通知Earcon的空间信息。例如，可以将Earcon音频内容与主音频内容和新的元数据一起压缩并馈入一个媒体解码器中，或者可以在媒体解码器之后将Earcon音频内容混合到最终的音频场景中，或者可以使用若干个媒体解码器。

替代地，在示例中，可以在客户端中(例如，在元数据处理器132的控制下)合成地生成Earcon音频内容，而描述Earcon的元数据已经嵌入流中。在编码器中使用Earcon类型的特定信令，元数据可以包含Earcon的空间信息、“解码器生成的Earcon”的特定信令，而没有Earcon的音频数据。

替代地，可以在客户端中综合生成Earcon音频内容，并且可以使用元数据生成器来创建必要的元数据，以发信号通知Earcon的空间信息。例如，Earcon音频内容可以：

·与主音频内容和新的元数据一起压缩并馈入一个媒体解码器中；

·或者可以在媒体解码器之后将Earcon音频内容混合到最终的音频场景中；

·或者可以使用多个媒体解码器。

6.3音频信息消息(例如，Earcons)的元数据的示例

如上所述，这里提供了音频信息消息(Earcons)元数据141的示例。

一种用于描述Earcon属性并提供容易地调整这些值的可能性的结构：

/>

该表中的每个标识符可以意在与Earcon元数据的属性相关联。

这里讨论语义。

numEarcons-此字段指定流中可用的Earcons音频元素的数量。

Earcon_isIndependent-此标志定义Earcon音频元素是否独立于任何音频场景。如果Earcon_isIndependent＝＝1，则Earcon音频元素独立于音频场景。如果Earcon_isIndependent＝＝0，则Earcon音频元素是音频场景的一部分，并且Earcon_id应具有与同音频元素相关联的mae_groupID相同的值。

EarconType-此字段定义了Earcon的类型。下表指定了允许的值。

/>

EarconActive 此标志定义了Earcon是否为活动。如果EarconActive＝＝1，则EarconAudio元素应被解码并被渲染到Audio场景中。

EarconPosition 此标志定义了Earcon是否具有可用的位置信息。如果Earcon_isIndependent＝＝0，则应使用此位置信息代替dynamic_object_metadata()或intracoded_object_metadata_efficient()结构中指定的音频对象元数据。

Earcon_azimuth 方位角的绝对值。

Earcon_elevation 仰角的绝对值。半径的绝对值。

Earcon_radius

EarconHasGain 此标志定义了Earcon是否具有不同的增益值。

Earcon_gain此字段定义了Earcon的增益的绝对值。

EarconHasTextLabel此标志定义了Earcon是否具有关联的文本标签。

Earcon_numLanguages此字段指定了描述文本标签可用的语言数量。

Earcon_Language此24比特字段标识了Earcon的描述文本的语言。它包含ISO639-2指定的3字符代码。ISO 639-2/B和ISO 639-2/T两者均可以使用。根据ISO/IEC 8859-1，每个字符被编码为8比特，并按次序插入24比特字段中。示例：法语具有3字符的代码“fre”，其被编码为：“011001100111001001100101”。

Earcon_TextDataLength此字段定义了比特流中以下组描述的长度。

Earcon TextData此字段包含对Earcon的描述，即，

用于通过高级描述来描述内容的串。格式应遵循根据ISO/IEC 10646的UTF-8。

一种用于在系统级别上识别Earcons并将Earcons与现有视口相关联的结构。以下两个表提供了两种可在不同实现中使用的实现这种结构的方式：

/>

hasEarcon指定Earcon数据是否对于一个区域是可用的。

numRegionEarcons指定对于一个区域可用的Earcons的数量。

Earcon_id唯一定义一个与球形区域相关联的Earcon元素的ID。如果Earcon是音频场景的一部分(即，Earcon是由一个mae_groupID识别的一组元素的一部分)，则Earcon_id应具有与mae_groupID相同的值。Earcon_id可用于识别音频文件/音轨，例如，在DASH传送的情况下，MPD中的具有EarearComponent@tag元素的AdaptationSet与Earcon_id相等。

Earcon_track_id是一个展示的整个寿命上唯一地标识与球形区域相关联的一个Earcon音轨的整数，即，如果(一个或多个)Earcon音轨在同一ISO BMFF文件中传送，Earcon_track_id代表(一个或多个)Earcon音轨的对应的track_id。如果未在同一ISOBMFF文件内传送Earcon，则此值应设置为零。

为了在MPD级别上轻松地识别(一个或多个)Earcon音轨，以下属性/元素可以使用EarconComponent@tag：

MPEG-H音频的相关MPD元素和属性的总括

例如，对于MPEG-H音频，这可以通过使用MHAS分组来实现：

·可以定义用于承载关于Earcons的信息的新的MHAS分组：承载EarconInfo()结构的PACTYP_EARCON；

·通用MHAS METADATAMHAS分组中的新的标识字段，用于承载EarconInfo()结构。

对于元数据，元数据处理器132可以具有以下功能中的至少一些：

从流中提取音频信息消息元数据；

修改音频信息消息元数据以激活音频信息消息，和/或设置/更改音频信息消息的位置，和/或写入/修改音频信息消息文本标签；

将元数据嵌回流中；

将流馈送给附加媒体解码器；

从至少一个第一音频流(116)中提取音频元数据；

从附加流中提取音频信息消息元数据；

修改至少一个第一音频流(116)的音频元数据，以考虑到音频信息消息的存在并允许合并；

6.4图3的示例

图3示出了系统300，该系统300在客户端侧204包括可以体现例如系统100或200的系统302(客户端系统)。

系统302可以包括ROI处理器120、元数据处理器132、由多个媒体音频解码器112形成的解码器组313。

在该示例中，对不同的音频流进行解码(每个音频流分别由相应的媒体音频解码器112进行解码)，随后不同的音频流被混合在一起和/或渲染在一起以提供最终的音频场景。

在此，至少一个音频流被表示为包括两个音频流116和316(其他示例可以提供如图2所示的单个流、或者两个以上的流)。这些是音频流，旨在再现用户期望体验的音频场景。这里，即使将概念推广到任何音频信息消息也是可行的，也参考Earcons。

另外，媒体编码器240可以提供Earcon流140。基于用户的运动和视口元数据131中指示的ROI和/或其他标准，ROI处理器将使得从Earcon流140(也被指示为作为音频流116和316之外的附加音频流)再现Earcon。

值得注意的是，Earcon的实际表示将基于Earcon元数据141并基于元数据处理器132所执行的修改。

在示例中，在必要的情况下，系统302(客户端)可以向媒体编码器240(服务器)请求流。例如，ROI处理器可以基于用户的运动来决定很快将需要特定的Earcon，因此可以向媒体编码器240请求合适的Earcon流140。

可以注意此示例的以下方面：

·用例：在一个或多个音频流116、316(例如，一个主流和辅助流)中传送音频数据，而在一个或多个附加流140(取决于或独立于主音频流)中传送(一个或多个)Earcon。

·在客户端侧204的一种实现中，ROI处理器120和元数据处理器132用于有效地处理Earcon信息

·ROI处理器120可以从用于内容消费的媒体消费设备侧206(例如，基于HMD)接收关于当前视口(用户取向信息)的信息。ROI处理器还可以接收关于元数据的信息以及在元数据中发信号通知的ROI(如以OMAF发信号通知视频视口)。

·基于此信息，ROI处理器120可以决定激活包含在Earcon音频流140中的一个(或多个)Earcon。另外，ROI处理器120可以决定Earcon的不同位置、和不同的增益值(例如，为了在内容被消费的当前空间中更精确地表示Earcon)。

·ROI处理器120将此信息提供给元数据处理器132。

·元数据处理器132可以解析Earcon音频流中包含的元数据，并且

·启用Earcon(以便允许其再现)

·并且，如果ROI处理器120请求，则元数据处理器132相应地修改包含在Earcon元数据141中的空间位置和增益信息。

·然后，每个音频流116、316、140独立地被解码和被渲染(基于用户位置信息)，并且混合器或渲染器314将所有媒体解码器的输出混合在一起作为最终步骤。不同的实现只能将压缩后的音频进行解码，并将解码后的音频数据和元数据提供给通用渲染器，以用于最终渲染所有Audio元素(包括Earcons)。

·另外，在流传输环境中，基于同一信息，ROI处理器120可以决定预先请求Earcon流140(例如，当用户在ROI被启用之前的几秒钟注视错误方向时)。

6.5图4的示例

图4示出了系统400，该系统400在客户端侧204包括可以体现例如系统100或200的系统402(客户端系统)。这里，即使将概念推广到任何音频信息消息也是可行的，也参考Earcons。

系统402可以包括ROI处理器120、元数据处理器132、流多路复用器或复用器412。在多路复用器或复用器412的示例中，相对于在使用多个解码器和一个混合器或渲染器时要执行的操作数量，有利地减少了将由硬件执行的操作数量。

在该示例中，基于不同的音频流的元数据对不同的音频流进行处理，并由复用器412对其进行多路复用或复用。

在此，至少一个音频流被表示为包括两个音频流116和316(其他示例可以提供如图2所示的单个流、或者两个以上的流)。这些是音频流，旨在再现用户期望体验的音频场景。

另外，媒体编码器240可以提供Earcon流140。基于用户的运动和视口元数据131中指示的ROI和/或其他标准，ROI处理器120将使得从Earcon流140(也被指示为作为音频流116和316之外的附加音频流)再现Earcon。

每个音频流116、316、140可以分别包括元数据236、416、141。可以操控和/或处理这些元数据中的至少一些，以提供给流复用器或复用器412，在其中将音频流的分组合并在一起。因此，Earcon可以被表示为音频场景的一部分。

流复用器或多路复用器412因此可以提供包括修改后的音频元数据238和修改后的Earcon元数据234在内的音频流414，其可以被提供给媒体音频解码器112并且被解码和再现给用户。

可以注意此示例的以下方面：

·用例：在一个或多个音频流116、316(例如，一个主音频流116和辅助音频流316，但也可以提供单个音频流)中传送音频数据，而在一个或多个附加流140(取决于或独立于主音频流)中传送(一个或多个)Earcon。

·ROI处理器120可以从用于内容消费的媒体消费设备侧206(例如，HMD)接收关于当前视口的信息(用户取向信息)。ROI处理器120还可以接收关于Earcon元数据141和在Earcon元数据141中发信号通知的ROI的信息(可以以全向媒体应用格式OMAF发信号通知视频视口)。

·基于此信息，ROI处理器120可以决定激活包含在附加音频流140中的一个(或多个)Earcon。另外，ROI处理器120可以决定Earcon的不同位置、和不同的增益值(例如，为了在内容被消费的当前空间中更精确地表示Earcon)。

·ROI处理器120可以将此信息提供给元数据处理器132。

·启用Earcon

·并且，如果ROI处理器请求，则元数据处理器132相应地修改包含在Earcon元数据中的空间位置和/或增益信息和/或文本标签。

·元数据处理器132还可以解析所有音频流116、316的音频元数据236、416，并可以操控音频特定信息以使Earcon可以被用作音频场景的一部分(例如，如果音频场景具有5.1信道床(channel bed)和4个对象，则Earcon音频元素作为第五对象被添加到场景。所有元数据字段都会相应更新。

·然后，每个音频流116、316的音频数据以及修改后的音频元数据和Earcon元数据被提供给流复用器或多路复用器，流复用器或多路复用器可以基于此生成具有一组元数据(修改后的音频元数据238和修改后的Earcon元数据234)的一个音频流414。

·此流414可以由单个媒体音频解码器112基于用户位置信息进行解码。

·此外，在流传输环境中，基于相同信息，ROI处理器120可以决定预先请求Earcon流140(例如，当在ROI被启用之前的几秒钟用户注视错误方向时)。

6.6图5的示例

图5示出了系统500，该系统500在客户端侧204包括可以体现例如系统100或200的系统502(客户端系统)。这里，即使将概念推广到任何音频信息消息也是可行的，也参考Earcons。

系统502可以包括ROI处理器120、元数据处理器132、流多路复用器或复用器412。

在该示例中，Earcon流不是由(客户端侧处的)远程实体提供的，而是由合成音频生成器246生成的(合成音频生成器246也可以具有存储流的能力，以供以后重复使用或用于使用存储的自然声音的压缩/未压缩版本)。然而Earcon元数据141是由远程实体提供的，例如在音频流116(不是Earcon流)中。因此，可以激活合成音频生成器246以基于Earcon元数据141的属性来创建音频流140。例如，属性可以指代合成语音的类型(自然声音、合成声音、口语文本等)和/或文本标签(可以通过基于元数据中的文本创建合成声音来生成Earcon)。在示例中，在创建Earcon流之后，可以将其存储以供将来重复使用。替代地，合成声音可以是永久存储在设备中的通用声音。

流复用器或多路复用器412可以用于将音频流116(以及在其他流的情况下，还有例如辅助音频流316的分组)的分组与合成音频生成器246生成的Earcon流的分组合并。之后，可以获得与修改后的音频元数据238和修改后的Earcon元数据234相关联的音频流414。音频流414可以由媒体音频解码器112解码，并且在媒体消费设备侧206被再现给用户。

可以注意此示例的以下方面：

·用例：

·音频数据在一个或多个音频流(例如，一个主流和辅助流)中传送。

·远程设备未传递Earcon，但是Earcon元数据141作为主音频流的一部分传递(特定的信令可以用于指示Earcon没有关联的音频数据)。

·在客户端侧的一种实现中，ROI处理器120和元数据处理器132用于有效地处理Earcon信息。

·ROI处理器120可以从媒体消费设备侧206(例如，HMD)所使用的设备接收关于当前视口的信息(用户取向信息)。ROI处理器120还可以接收关于元数据的信息以及在元数据中发信号通知的ROI(如以OMAF发信号通知视频视口)。

·基于此信息，ROI处理器120可以决定激活音频流116中不存在的一个(或多个)Earcon。另外，ROI处理器120可以决定Earcon的不同位置、和不同的增益值(例如，为了在内容被消费的当前空间中更精确地表示Earcon)。

·ROI处理器120可以将此信息提供给元数据处理器132。

·元数据处理器可以解析在音频流116中包含的元数据，并

且可以

·启用Earcon

·元数据处理器132还可以解析所有音频流(116、316)的音频元数据(例如，236、417)，并可以操控音频特定信息以使Earcon可以被用作音频场景的一部分(例如，如果音频场景具有5.1信道床(channel bed)和4个对象，则Earcon音频元素作为第五对象被添加到场景。相应地更新所有元数据字段。

·修改后的Earcon元数据和来自ROI处理器120的信息被提供给合成音频生成器246。合成音频生成器246可以基于接收到的信息来创建合成声音(例如，基于Earcon的空间位置来生成拼出该位置的语音信号)。此外，Earcon元数据141与生成的音频数据相关联到新的流414中。

·类似地，像以前一样，每个音频流(116、316)的音频数据以及修改后的音频元数据和Earcon元数据然后被提供给流复用器，流复用器可以基于此生成具有一组元数据(音频和Earcon)的一个音频流。

·此流414由单个媒体音频解码器112基于用户位置信息进行解码。

·替代地或附加地，可以将Earcon的音频数据缓存在客户端中(例如，根据先前的Earcon用法)。

·替代地，合成音频生成器246的输出可以是未压缩的音频，并且可以混合到最终渲染的场景中。

·此外，在流传输环境中，基于相同信息，ROI处理器120可以决定预先请求Earcon流(例如，当在ROI被启用之前的几秒钟用户注视错误方向时)。

6.7图6的示例

图6示出了系统600，该系统600在客户端侧204包括可以体现例如系统100或200的系统602(客户端系统)。这里，即使将概念推广到任何音频信息消息也是可行的，也参考Earcons。

系统602可以包括ROI处理器120、元数据处理器132、流多路复用器或复用器412。

在该示例中，Earcon流不是由(客户端侧处的)远程实体提供的，而是由合成音频生成器246生成的(合成音频生成器246也可以具有存储流的能力，以供以后重复使用)。

在该示例中，远程实体不提供Earcon元数据141。Earcon元数据由元数据生成器432生成，元数据生成器432可以生成元数据处理器132要使用(例如，处理、操控、修改)的Earcon元数据。由Earcon元数据生成器432生成的Earcon元数据141可以具有与针对先前示例讨论的Earcon元数据相同的结构和/或格式和/或属性。

元数据处理器132可以如图5的示例中那样操作。可以激活合成音频生成器246以基于Earcon元数据141的属性来创建音频流140。例如，属性可以指合成语音的类型(自然声音、合成声音、语音文本等)、和/或增益、和/或激活/非激活状态等。在示例中，在创建Earcon流140之后，可以将其存储(例如，缓存)以供将来重复使用。还可以存储(例如，缓存)由Earcon元数据生成器432生成的Earcon元数据。

可以注意此示例的以下方面：

·用例：

·音频数据在一个或多个音频流(例如，一个主音频流116和辅助音频流316)中传递。

·服务器侧202未传送(一个或多个)Earcon。

·服务器侧202未传递Earcon元数据。

·此用例可以代表用于针对在没有Earcons的情况下创建的传统(legacy)内容启用Earcons的解决方案。

·在客户端侧的一种实现中，ROI处理器120和元数据处理器232用于有效地处理Earcon信息。

·ROI处理器120可以从媒体消费设备侧206(例如，HMD)所使用的设备接收关于当前视口的信息(用户取向信息)。ROI处理器210还可以接收关于元数据的信息以及在元数据中发信号通知的ROI(如以OMAF发信号通知视频视口)。

·基于此信息，ROI处理器120可以决定激活音频流(116、316)中不存在的一个(或多个)Earcon。

·此外，ROI处理器120可以将关于Earcons的位置和增益值的信息提供给Earcon元数据生成器432。

·ROI处理器120可以将此信息提供给元数据处理器232。

·元数据处理器232可以解析Earcon音频流(如果存在)中包含的元数据，并且可以：

·启用Earcon

·并且，如果ROI处理器120请求，则元数据处理器132相应地修改包含在Earcon元数据中的空间位置和增益信息。

·元数据处理器还可以解析所有音频流116、316的音频元数据236、417，并可以操控音频特定信息以使Earcon可以被用作音频场景的一部分(例如，如果音频场景具有5.1信道床(channel bed)和4个对象，则Earcon音频元素作为第五对象被添加到场景。相应地更新所有元数据字段。

·修改后的Earcon元数据234和来自ROI处理器120的信息被提供给合成音频生成器246。合成音频生成器246可以基于接收到的信息来创建合成声音(例如，基于Earcon的空间位置来生成拼出该位置的语音信号)。此外，Earcon元数据与生成的音频数据相关联到新的流中。

·类似地，像以前一样，每个流的音频数据以及修改后的音频元数据和Earcon元数据然后被提供给流复用器或多路复用器412，流复用器或多路复用器412可以基于此生成具有一组元数据(音频和Earcon)的一个音频流414。

·此流414由单个媒体音频解码器基于用户位置信息进行解码。

·替代地，可以将Earcon的音频数据缓存在客户端中(例如，根据先前的Earcon用法)。

·替代地，合成音频生成器的输出可以是未压缩的音频，并且可以混合到最终渲染的场景中。

6.8基于用户位置的示例

可以实现仅当用户看不到ROI时才允许再现Earcon的功能。

例如，ROI处理器120可以定期检查用户的当前视口和/或位置和/或头部取向和/或运动数据122。如果ROI对用户可见，则不会引起Earcon的再现。

如果从用户的当前视口和/或位置和/或头部取向和/或运动数据，ROI处理器确定ROI对用户不可见，则ROI处理器120可以请求再现Earcon。在这种情况下，ROI处理器120可以使元数据处理器132准备再现Earcon。元数据处理器132可以使用针对以上示例描述的技术之一。例如，元数据可以在由服务器侧202传递的流中被检索，可以由Earcon元数据生成器432生成，等等。Earcon元数据的属性可以基于ROI处理器的请求和/或各种条件而被容易地修改。例如，如果用户的选择先前已禁用Earcon，则即使用户没有看到ROI，Earcon也不会被再现。例如，如果(先前设置的)计时器尚未到期，则即使用户没有看到ROI，Earcon也不会被再现。

另外，如果根据用户的当前视口和/或位置和/或头部取向和/或运动数据，ROI处理器确定ROI对用户可见，则ROI处理器120可以请求不再现Earcon，特别是如果Earcon元数据已经包含针对活动的Earcon的信令。

在这种情况下，ROI处理器120可以使元数据处理器132禁用Earcon的再现。元数据处理器132可以使用针对以上示例描述的技术之一。例如，元数据可以在由服务器侧202传递的流中被检索，可以由Earcon元数据生成器432生成，等等。Earcon元数据的属性可以基于ROI处理器的请求和/或各种条件而被容易地修改。如果元数据已经包含对应再现Earcon的指示，则在这种情况下，修改元数据以指示Earcon未激活并且不应被再现。

可以注意此示例的以下方面：

·用例：

·在一个或多个音频流116、316(例如，一个主流和辅助流)中传送音频数据，而在相同的一个或多个音频流116、316或在一个或多个附加流140中(取决于或独立于主音频流)传送Earcon。

·Earcon元数据被设置为使得Earcon元数据指示Earcon在特定的时刻时钟为活动的。

·不包括ROI处理器的第一代设备将读取Earcon元数据并使得再现Earcon，而与以下事实无关：用户的当前视口和/或位置和/或头部取向和/或运动数据指示ROI对用户可见。

·包括任何系统中所述的ROI处理器的新一代设备将利用ROI处理器来进行确定。如果根据用户的当前视口和/或位置和/或头部取向和/或运动数据，ROI处理器确定ROI对用户可见，则ROI处理器120可以请求不再现Earcon，特别是如果Earcon元数据已经包含针对活动的Earcon的信令。在这种情况下，ROI处理器120可以使元数据处理器132禁用Earcon的再现。元数据处理器132可以使用针对以上示例描述的技术之一。例如，元数据可以在由服务器侧202传递的流中被检索，可以由Earcon元数据生成器432生成，等等。Earcon元数据的属性可以基于ROI处理器的请求和/或各种条件而被容易地修改。如果元数据已经包含对应再现Earcon的指示，则在这种情况下，修改元数据以指示Earcon未激活并且不应被再现。

·此外，取决于回放设备，ROI处理器可以决定请求修改Earcon元数据。例如，如果通过耳机或通过扬声器再现声音，则可以不同地修改Earcon空间信息。

因此，将基于由元数据处理器执行的元数据修改来获得用户体验的最终的音频场景。

6.9基于服务器客户端通信的示例(图5a)

图5a示出了系统550，该系统550在客户端侧204包括可以体现例如系统100或200或300或400或500的系统552(客户端系统)。这里，即使将概念推广到任何音频信息消息也是可行的，也参考Earcons。

系统552可以包括ROI处理器120、元数据处理器132、流多路复用器或复用器412。(在示例中，对不同的音频流进行解码(每个音频流分别由相应的媒体音频解码器112进行解码)，随后不同的音频流被混合在一起和/或渲染在一起以提供最终的音频场景)。

另外，媒体编码器240可以提供Earcon流140。

音频流可以以不同的比特率进行编码，这允许取决于网络连接进行有效的比特率适配(即，对于使用高速连接的用户，传递高比特率编码的版本，而对于使用较低速度的网络连接的用户，传递较低比特率版本)。

音频流可以存储在媒体服务器554上，其中对于每个音频流，将不同比特率的不同编码分组在一个自适应集556中，并且适当的数据发信号通知所有创建的自适应集的可用性。可以提供音频自适应集556和视频自适应集557。

基于用户的运动和视口元数据131中指示的ROI和/或其他标准，ROI处理器120将使得从Earcon流140(也被指示为作为音频流116和316之外的附加音频流)再现Earcon。

在此示例中：

·客户端552被配置为从服务器接收与所有自适应集的可用性有关的数据，可用的自适应集包括：

о至少一个音频流的至少一个音频场景自适应集；以及

о包含至少一个音频信息消息在内的至少一个附加音频流的至少一个音频消息自适应集。

·与其他示例实现类似，ROI处理器120可以从用于内容消费的媒体消费设备侧206(例如，基于HMD)接收关于当前视口的信息(用户取向信息)。ROI处理器120还可以接收关于元数据的信息以及在元数据中发信号通知的ROI(如以OMAF发信号通知视频视口)。

о基于此信息，ROI处理器120可以决定激活包含在Earcon音频流140中的一个(或多个)Earcon。

о另外，ROI处理器120可以决定Earcon的不同位置、和不同的增益值(例如，为了在内容被消费的当前空间中更精确地表示Earcon)。

оROI处理器120可以将此信息提供给选择数据生成器558。

·选择数据生成器558可以被配置为：基于ROI处理器的决定，创建识别要接收哪些自适应集的选择数据559；自适应集包括音频场景自适应集和音频消息自适应集；

·媒体服务器554可以被配置为：向客户端552提供指令数据，以使流传输客户端检索由选择数据识别的自适应集556、557的数据，该选择数据识别要接收哪些自适应集；自适应集包括音频场景自适应集和音频消息自适应集；

·下载和切换模块560被配置为：基于识别要接收哪些自适应集的选择数据，从媒体服务器554接收所请求的音频流；自适应集包括音频场景自适应集和音频消息自适应集。下载和切换模块560可以另外被配置为：将音频元数据和Earcon元数据141提供给元数据处理器132。

·ROI处理器120可以将此信息提供给元数据处理器132。

·元数据处理器132可以解析Earcon音频流140中包含的元数据，并且

о启用Earcon(以便允许其再现)

о并且，如果ROI处理器120请求，则元数据处理器132相应地修改包含在Earcon元数据141中的空间位置和增益信息。

·元数据处理器132还可以解析所有音频流116、316的音频元数据，并可以操控音频特定信息以使Earcon可以被用作音频场景的一部分(例如，如果音频场景具有5.1信道床和4个对象，则Earcon音频元素作为第五对象被添加到场景。可以相应地更新所有元数据字段。

·然后，每个音频流116、316的音频数据以及修改后的音频元数据和Earcon元数据可以被提供给流复用器或多路复用器，流复用器或多路复用器可以基于此生成具有一组元数据(修改后的音频元数据238和修改后的Earcon元数据234)的一个音频流414。

·此流可以由单个媒体音频解码器112基于用户位置信息进行解码。

自适应集可以由包含各个内容的可互换版本的一组表示来形成，例如，不同的音频比特率(例如，不同比特率的不同流)。尽管理论上一个单一的表示足以提供可播放的流，但是多个表示可以给客户端提供使媒体流适应其当前网络条件和带宽要求的可能性，从而保证了更流畅的回放。

6.10方法

上面的所有示例可以通过方法步骤来实现。在此，为了完整起见，描述了方法700(方法700可以由以上任何示例执行)。该方法可以包括：

在步骤702，接收至少一个视频流(106)和至少一个第一音频流(116、316)；

在步骤704，从至少一个视频流(106)中解码至少一个视频信号，以向用户表示VR、AR、MR或360度视频环境场景(118a)；以及

在步骤706，从至少一个第一音频流(116、316)中解码至少一个音频信号，以向用户表示音频场景(118b)；

接收用户的当前视口和/或位置和/或头部取向和/或运动数据(122)；以及

在步骤708，从至少一个视频流(106)接收与至少一个视频信号相关联的视口元数据(131)，该视口元数据定义了至少一个ROI；以及

在步骤710，基于用户的当前视口和/或位置和/或头部取向和/或运动数据(122)以及视口元数据和/或其他标准，决定是否要再现与至少一个ROI相关联的音频信息消息；以及

在步骤712处，接收、处理和/或操控描述音频信息消息的音频信息消息元数据(141)，使得根据音频信息消息属性来再现音频信息消息，以使音频信息消息是音频场景的一部分。

显然，顺序也可以变化。例如，根据传递信息的实际次序，接收步骤702、706、708可以具有不同的次序。

线714是指可以重复进行该方法的事实。在ROI处理器决定不再现音频信息消息的情况下，可以跳过步骤712。

6.11其他实现

图8示出了系统800，该系统800可以实现系统之一(或其组件)或执行方法700。系统800可以包括处理器802和存储指令的非暂时性存储单元806，该指令在由处理器802执行时可以使处理器至少执行以上讨论的流处理操作和/或以上讨论的元数据处理操作。系统800可以包括用于与外部设备连接的输入/输出单元804。

系统800可以实现ROI处理器120、元数据处理器232、合成音频生成器246、复用器或多路复用器412、解码器112m、Earcon元数据生成器432等中的至少一些(或全部)功能。

取决于某些实现要求，可以在硬件中实现示例。可以使用数字存储介质来执行该实现，数字存储介质例如为其上存储有电子可读控制信号的软盘、数字多功能盘(DVD)、蓝光盘、致密盘(CD)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)或闪速存储器，这些电子可读控制信号(或能够)与可编程计算机系统协作，以执行相应的方法。因此，数字存储介质可以是计算机可读的。

通常，示例可以实现为具有程序代码的计算机程序产品，程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序指令可以例如存储在机器可读介质上。

其他示例包括存储在机器可读载体上的计算机程序，该计算机程序用于执行本文所述的方法之一。换言之，方法示例因此是具有程序指令的计算机程序，该程序指令用于在计算机程序在计算机上运行时执行本文所述的方法之一。

因此，方法的另一示例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质介质)，该计算机程序用于执行本文所述的方法之一。数据载体介质、数字存储介质或记录介质是有形的和/或非暂时性的，而不是无形的和暂时的信号。

另一示例包括处理单元，例如，计算机或可编程逻辑器件，所述处理单元执行本文所述的方法之一。

另一示例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文所述的方法之一。

另一示例包括向接收机(例如，以电子方式或以光学方式)传输计算机程序的装置或系统，该计算机程序用于执行本文所述的方法之一。接收器可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收器传送计算机程序的文件服务器。

在一些示例中，可编程逻辑器件(例如，现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些示例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，方法可以由任何合适的硬件装置来执行。

上述示例对于以上公开的原理是说明性的。应当理解的是，本文中描述的布置和细节的修改和变化将是显而易见的。因此，旨在由所附专利权利要求的范围来限制而不是由借助对本文示例的描述和解释所给出的具体细节来限制。

Claims

1.一种用于虚拟现实VR、增强现实AR、混合现实MR或360度视频环境的内容消费设备系统，所述内容消费设备系统被配置为：

接收与要再现的视频音频场景(118a、118b)相关联的至少一个视频流(106)；以及

接收与要再现的所述视频音频场景(118a、118b)相关联的至少一个第一音频流(116、316)，

从所述至少一个第一音频流(116)接收与至少一个音频信息消息相关联的音频信息消息元数据(141)，

其中，所述内容消费设备系统包括：

至少一个媒体视频解码器(102)，被配置为从所述至少一个视频流(106)中解码至少一个视频信号，以向用户表示所述视频音频场景(118a、118b)；以及

至少一个媒体音频解码器(112)，被配置为从所述至少一个第一音频流(116、316)中解码至少一个音频信号，以向用户表示所述视频音频场景(118a、118b)；

元数据处理器(132)；

感兴趣区域ROI处理器(120)，被配置为：

接收当前用户的视口和/或头部取向和/或运动数据(122)；

从所述至少一个视频流(106)接收与所述至少一个视频信号相关联的视口元数据(131)，所述视口元数据(131)定义至少一个ROI；

至少基于以下项：

用户的当前视口和/或头部取向和/或运动数据(122)；以及

视口元数据(131)，

决定是否要再现与至少一个ROI相关联的音频信息消息，其中，所述音频信息消息独立于所述至少一个视频信号和所述至少一个音频信号；以及

在所述ROI处理器决定要再现所述音频信息消息的情况下，向所述元数据处理器(132)请求修改所述音频信息消息元数据(141)；以及

其中，所述元数据处理器(132)被配置为：接收音频信息消息元数据(141)，从所述ROI处理器(120)接收修改所述音频信息消息元数据的请求，以及根据来自所述ROI处理器(120)的请求将所述音频信息消息元数据(141)修改为修改后的音频信息消息元数据，其中，所述ROI处理器(120)还被配置为：使得根据修改后的音频信息消息元数据(234)再现所述音频信息消息。

2.根据权利要求1所述的内容消费设备系统，所述音频信息消息是earcon。

3.根据权利要求1所述的内容消费设备系统，其中，所述ROI处理器(120)被配置为：还基于所述音频信息消息元数据来执行所述决定。

4.根据权利要求1所述的内容消费设备系统，其中，所述ROI处理器(120)还被配置为执行所述决定以便：

在所述至少一个ROI在用户的当前视口之外的情况下，除了再现所述至少一个音频信号之外，还使得再现与所述至少一个ROI相关联的音频信息消息；以及

在所述至少一个ROI在用户的当前视口内的情况下，去激活与所述至少一个ROI相关联的所述音频信息消息的再现。

5.根据权利要求1所述的内容消费设备系统，还被配置为：

接收至少一个附加音频流(140)，所述至少一个音频信息消息编码在所述至少一个附加音频流(140)中，

其中，所述内容消费设备系统还包括：

至少一个复用器或多路复用器(412)，用于在所述元数据处理器(132)或另一处理器的控制下，基于所述ROI处理器(120)提供的要再现所述至少一个音频信息消息的决定，将所述至少一个附加音频流(140)的分组与所述至少一个第一音频流(116、316)的分组合并到一个流(414)中，以使得除了所述音频场景之外还再现所述音频信息消息。

6.根据权利要求1所述的内容消费设备系统，还被配置为：

接收描述编码在所述至少一个第一音频流(116)中的所述至少一个音频信号的至少一个音频元数据(236)；

在所述ROI处理器决定要再现所述音频信息消息的情况下，由所述元数据处理器(132)修改所述音频信息消息元数据(141)以使得除了再现所述至少一个音频信号之外，还能够再现所述音频信息消息。

7.根据权利要求1所述的内容消费设备系统，还被配置为：

在所述ROI处理器决定要再现所述音频信息消息的情况下，由所述元数据处理器(132)修改所述音频信息消息元数据(141)以使得除了再现所述至少一个音频信号之外，还能够再现与所述至少一个ROI相关联的音频信息消息；以及

由所述元数据处理器(132)修改描述所述至少一个音频信号的所述音频元数据(236)，以允许合并所述至少一个第一音频流(116)和所述至少一个附加音频流(140)。

8.根据权利要求1所述的内容消费设备系统，还被配置为：

在所述ROI处理器决定要再现所述音频信息消息的情况下，由所述元数据处理器(132)将所述音频信息消息元数据(141)提供给合成音频生成器(246)以创建合成音频流，以便将所述音频信息消息元数据(141)与所述合成音频流相关联，并将所述合成音频流和所述音频信息消息元数据(141)提供给多路复用器或复用器(412)，以允许合并所述至少一个第一音频流(116)和所述合成音频流。

9.根据权利要求5所述的内容消费设备系统，还被配置为：从编码有所述音频信息消息的所述至少一个附加音频流(140)获得所述音频信息消息元数据(141)。

10.根据权利要求5所述的内容消费设备系统，还被配置为：存储所述音频信息消息元数据(141)和/或所述附加音频流(140)以供将来使用。

11.根据权利要求1所述的内容消费设备系统，还包括：

合成音频生成器(246)，被配置为：基于与所述至少一个ROI相关联的音频信息消息元数据(141)来合成音频信息消息。

12.根据权利要求1所述的内容消费设备系统，还被配置为：

其中，所述元数据处理器(132)还被配置为控制复用器或多路复用器(412)以：基于音频元数据(236)和所述音频信息消息元数据，将所述附加音频流(140)的分组与所述至少一个第一音频流(116)的分组合并到一个流(414)中，以获得所述音频信息消息向所述至少一个第一音频流(116)的添加。

13.根据权利要求1所述的内容消费设备系统，其中，所述音频信息消息元数据(141)被编码在至少包括与要再现的所述音频信息消息的响度级别相关联的增益数据在内的配置帧或数据帧中。

14.根据权利要求1所述的内容消费设备系统，其中，所述音频信息消息元数据(141)被编码在至少包括以下项中的至少一个在内的配置帧或数据帧中：

位置数据，

音频信息消息的语言，

数据文本长度，

相关联的文本标签的数据文本，和

音频信息消息的描述。

15.根据权利要求1所述的内容消费设备系统，其中，所述元数据处理器(132)还被配置为修改音频信息消息元数据以激活所述音频信息消息和/或设置/更改所述音频信息消息的位置。

16.根据权利要求1所述的内容消费设备系统，其中，所述元数据处理器(132)还被配置为执行以下操作中的至少一个：

从流中提取音频信息消息元数据；

将元数据嵌回流中；

将流馈送给附加媒体解码器；

从所述至少一个第一音频流(116)中提取音频元数据；

从附加流中提取音频信息消息元数据；

修改所述至少一个第一音频流(116)的音频元数据，以考虑到音频信息消息的存在并允许合并；

17.根据权利要求1所述的内容消费设备系统，其中，所述ROI处理器(120)还被配置为：对编码有所述音频信息消息的附加音频流(140)和/或音频信息消息元数据执行本地搜索，并且在未检索到的情况下，向远程实体请求所述附加音频流(140)和/或音频信息消息元数据。

18.根据权利要求11所述的内容消费设备系统，其中，所述ROI处理器(120)还被配置为：对附加音频流(140)和/或音频信息消息元数据执行本地搜索，并且在未检索到的情况下，使所述合成音频生成器(246)生成所述音频信息消息流和/或音频信息消息元数据。

19.根据权利要求1所述的内容消费设备系统，还被配置为：

接收至少一个附加音频流(140)，所述至少一个附加音频流(140)包括与所述至少一个ROI相关联的至少一个音频信息消息，

其中，所述至少一个媒体音频解码器(112)还被配置为：如果所述ROI处理器决定要再现与所述至少一个ROI相关联的音频信息消息，则对所述至少一个附加音频流(140)进行解码。

20.根据权利要求19所述的内容消费设备系统，其中，

所述至少一个第一媒体音频解码器(112)被配置用于从至少一个第一音频流(116)中解码所述至少一个音频信号；

所述内容消费设备系统还包括：

至少一个附加音频解码器(112)，配置用于从附加音频流(140)中解码所述至少一个音频信息消息；以及

至少一个混合器和/或渲染器(314)，用于将来自所述至少一个附加音频流(140)的音频信息消息与来自所述至少一个第一音频流(116)的所述至少一个音频信号混合和/或叠加。

21.根据权利要求1所述的内容消费设备系统，还被配置为：跟踪对所述音频信息消息的再现的累积数进行定义的度量，以便如果所述度量超过预定阈值，则禁用所述音频信息消息的再现。

22.根据权利要求1所述的内容消费设备系统，其中，所述ROI处理器的决定基于相对于所述ROI的位置对用户的当前视口和/或位置和/或头部取向和/或运动数据(122)的预测。

23.根据权利要求1所述的内容消费设备系统，还被配置为：在所述ROI处理器决定要再现所述信息消息时，向远程实体请求音频消息信息流。

24.根据权利要求1所述的内容消费设备系统，还被配置为确立：是否同时再现两个音频信息消息，或者是否相对于较低优先级的音频信息消息来优先选择较高优先级的音频信息消息进行再现。

25.根据权利要求1所述的内容消费设备系统，还被配置为：基于音频信息消息在音频流中的地址和/或位置，在编码在一个附加音频流(140)中的多个音频信息消息中识别音频信息消息。

26.根据权利要求1所述的内容消费设备系统，其中，所述音频流被格式化为MPEG-H 3D音频流格式。

27.根据权利要求1所述的内容消费设备系统，还被配置为：

接收关于多个自适应集(556、557)的可用性的数据，可用的自适应集包括用于所述至少一个第一音频流(116、316)的至少一个音频场景自适应集以及用于所述至少一个附加音频流(140)的至少一个音频消息自适应集，所述至少一个附加音频流(140)包含至少一个音频信息消息；

基于所述ROI处理器的决定，创建选择数据(559)，所述选择数据(559)识别要检索哪个自适应集，所述可用的自适应集包括至少一个音频场景自适应集和/或至少一个音频消息自适应集；以及

请求和/或检索由所述选择数据识别的自适应集的数据，

28.根据权利要求27所述的内容消费设备系统，其中，其元素中的至少一个元素包括基于HTTP、DASH、客户端的动态自适应流传输，和/或被配置为使用ISO基础媒体文件格式ISOBMFF或MPEG-2传输流MPEG-2TS来检索每个自适应集的数据。

29.根据权利要求1所述的内容消费设备系统，其中，所述ROI处理器(120)还被配置为：检查所述ROI与当前视口和/或位置和/或头部取向和/或运动数据(122)之间的对应关系，以便检查所述ROI是否在所述当前视口中表示，并且在所述ROI在所述当前视口之外的情况下，将所述ROI的存在以声音的形式发信号通知给用户。

30.根据权利要求1所述的内容消费设备系统，其中，所述ROI处理器(120)还被配置为：检查所述ROI与当前视口和/或位置和/或头部取向和/或运动数据(122)之间的对应关系，以便检查所述ROI是否在所述当前视口中表示，并且在所述ROI在所述当前视口和/或位置和/或头部取向和/或运动数据(122)内的情况下，不将所述ROI的存在以声音的形式发信号通知给用户。

31.根据权利要求1所述的内容消费设备系统，还被配置为：从远程实体(202)接收与视频场景相关联的所述至少一个视频流(106)和与音频场景相关联的所述至少一个第一音频流(116)，其中，所述音频场景与所述视频场景相关联。

32.根据权利要求1所述的内容消费设备系统，其中，所述ROI处理器(120)还被配置为：在要再现的多个音频信息消息中选择在第二音频信息消息之前再现一个第一音频信息消息。

33.根据权利要求1所述的内容消费设备系统，还包括：高速缓冲存储器，存储从远程实体(202)接收或合成生成的音频信息消息，以在不同的时间实例处重复使用所述音频信息消息。

34.根据权利要求1所述的内容消费设备系统，其中，所述至少一个视频流和/或所述至少一个第一音频流分别是当前视频场景和当前音频场景的一部分，并且独立于所述当前视频场景和所述当前音频场景中的用户的当前视口和/或头部取向和/或运动数据(122)。

35.根据权利要求1所述的内容消费设备系统，还被配置为：分别与所述音频流和/或视频流相关联地向远程实体请求所述至少一个第一音频流和/或至少一个视频流，并且基于用户的当前视口和/或头部取向和/或运动数据(122)来再现所述至少一个音频信息消息。

36.根据权利要求1所述的内容消费设备系统，还被配置为：分别与所述音频流和/或视频流相关联地向远程实体请求所述至少一个第一音频流和/或至少一个视频流，并且基于用户的当前视口和/或头部取向和/或运动数据(122)向所述远程实体请求所述至少一个音频信息消息。

37.根据权利要求1所述的内容消费设备系统，还被配置为：分别与所述音频流和/或视频流相关联地向远程实体请求所述至少一个第一音频流和/或至少一个视频流，并且基于用户的当前视口和/或头部取向和/或运动数据(122)来合成所述至少一个音频信息消息。

38.根据权利要求1所述的内容消费设备系统，还被配置为：检查用于再现所述音频信息消息的附加标准中的至少一个附加标准，所述标准还包括用户的选择和/或用户的设置。

39.根据权利要求1所述的内容消费设备系统，还被配置为：检查用于再现所述音频信息消息的附加标准中的至少一个附加标准，所述标准基于如果已经再现了所述音频信息消息则禁止所述音频信息消息的重复，所述标准使用定时器来避免太快的重复。

40.根据权利要求1所述的内容消费设备系统，还被配置为：检查用于再现所述音频信息消息的附加标准中的至少一个附加标准，所述标准还包括从远程实体获得的音频消息元数据中的标志，其中，所述标志定义所述音频信息消息是否活动。

41.一种系统，包括：客户端，被配置为根据权利要求1所述的内容消费设备系统；以及远程实体(202)，被配置为用于传送所述至少一个视频流(106)和所述至少一个第一音频流(116)的服务器。

42.根据权利要求41所述的系统，其中，所述远程实体(202)被配置为：在数据库、内联网、互联网和/或地理网络中搜索所述至少一个附加音频流(140)和/或音频信息消息元数据，并且在检索到的情况下，传送所述至少一个附加音频流(140)和/或所述音频信息消息元数据。

43.根据权利要求42所述的系统，其中，所述远程实体(202)被配置为：合成所述至少一个附加音频流(140)，和/或生成所述音频信息消息元数据。

44.一种用于内容消费设备系统中的虚拟现实VR、增强现实AR、混合现实MR或360度视频的方法，所述方法包括：

由所述内容消费设备系统接收要再现的至少一个视频流(106)；

由所述内容消费设备系统接收要再现的至少一个音频流(116、316)；

由所述内容消费设备系统从所述至少一个第一音频流(116)接收与至少一个音频信息消息相关联的音频信息消息元数据(141)；

由至少一个媒体视频解码器(102)从所述至少一个视频流(106)中解码至少一个视频信号；

由至少一个媒体音频解码器(112)从所述至少一个音频流(116、316)中解码至少一个音频信号；

由感兴趣区域ROI处理器(120)接收当前用户的视口和/或头部方位和/或运动数据(122)；

由所述ROI处理器(120)从所述至少一个视频流(106)中接收与所述至少一个视频信号相关联的视口元数据(131)，所述视口元数据(131)定义了至少一个ROI；

由所述ROI处理器(120)基于以下项：

用户的当前视口和/或头部取向和/或运动数据(122)和

视口元数据(131)，

决定是否要再现与至少一个ROI相关联的音频信息消息，其中，所述音频信息消息独立于所述至少一个视频信号和所述至少一个音频信号；

在所述ROI处理器决定要再现所述音频信息消息的情况下，由所述ROI处理器向元数据处理器(132)请求修改所述音频信息消息；

由所述元数据处理器(132)接收音频信息消息元数据(141)，

由所述元数据处理器(132)从所述ROI处理器(120)接收修改所述音频信息消息元数据的请求，

由所述元数据处理器(132)根据来自所述ROI处理器(120)的请求，将所述音频信息消息元数据(141)修改为修改后的音频信息消息元数据；

由所述ROI处理器(120)使得根据修改后的音频信息消息元数据(234)再现所述音频信息消息。

45.根据权利要求44所述的方法，还包括：

再现音频视频场景(118a、118b)；以及

在所述至少一个ROI在用户的当前视口之外的情况下，除了再现所述至少一个音频信号之外，还使得再现与所述至少一个ROI相关联的音频信息消息；和/或

46.一种包括指令的非暂时性存储单元，所述指令在由处理器执行时使所述处理器执行根据权利要求44所述的方法。