CN114731459A

CN114731459A - 用于个性化音频内容的方法和设备

Info

Publication number: CN114731459A
Application number: CN202080080936.3A
Authority: CN
Inventors: M·施密特; H·赫里希
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2019-11-20
Filing date: 2020-11-18
Publication date: 2022-07-08
Also published as: WO2021099363A3; WO2021099363A2; EP4062649A2; US20220417585A1; US11838578B2

Abstract

本文档描述了一种用于个性化音频内容的方法(400)。该方法(400)包括接收(401)用于该音频内容的清单文件(140)。该清单文件(140)包括参考音频比特流(121)的至少一个自适应集合(281，282)，其中，该音频比特流(121)包括多个音频对象(181)和用于该自适应集合(281，282)的多个不同的预选元素(291，292，293)，其中，这些不同的预选元素(291，292，293)指定该多个音频对象(181)的不同组合。该方法(400)进一步包括从该多个不同的预选元素(291，292，293)中选择(402)预选元素(291)，以及引起(403)取决于所选的预选元素(291)的音频信号的呈现。

Description

用于个性化音频内容的方法和设备

相关申请的交叉引用

本申请要求以下优先申请的优先权：于2019年11月20日提交的美国临时申请62/937,883(参考号：D19136USP1)和于2020年6月24日提交的美国临时申请63/043,179(参考号：D19136USP2)，这些申请通过引用并入本文。

技术领域

本文档涉及用于向用户(特别是收听者)提供个性化的音频信号的方法和设备。

背景技术

现代电视(TV)机使用户能够将软件应用程序加载到电视机的平台上。该平台可以被视为浏览器，并且该应用程序可以是浏览器的插件扩展程序。例如，该软件应用程序可以由内容提供商提供，并且它可以允许用户从内容提供商的服务器中选择音频和/或视频内容。

向用户提供个性化的音频和/或视频内容的可能背景是HbbTV(混合广播宽带电视)环境，其规范为ETSI TS 102 796。HbbTV利用HTML5(超文本标记语言)协议，该协议包括应用程序编程接口(API)，以使内容提供商能够为新服务提供软件应用程序(例如，在视频点播VOD的背景下)。HTML5 API指定允许应用程序(例如，电视机上的应用程序)与电视机的浏览器(本文中也称为终端)进行通信的通信接口。

本文档解决了以高效和可靠的方式、特别是经由HTML5 API实现音频/视频体验的音频内容的可扩展个性化的技术问题。独立权利要求解决了该技术问题。从属权利要求中描述了优选的示例。

发明内容

根据一个方面，描述了一种用于个性化音频内容(特别是来自音频/视频体验的音频内容)的设备和/或装置，特别是应用程序单元或应用程序。该设备被配置为接收用于音频内容(特别是音频/视频体验)的清单文件。该清单文件包括参考音频比特流的至少一个自适应集合，其中，该音频比特流包括多个不同的音频对象。此外，该清单文件包括用于该自适应集合的多个不同的预选元素，其中，这些不同的预选元素指定该多个音频对象的不同组合。该设备进一步被配置为从该多个不同的预选元素中选择预选元素。另外，该设备被配置为引起取决于所选的预选元素的音频信号的呈现。特别地，包含在所选的预选元素内的元数据可以用于混合多个音频对象以形成要呈现的音频信号。

根据另一方面，描述了一种用于个性化来自音频比特流的音频内容的设备和/或装置，特别是应用程序单元或应用程序。该设备被配置为接收音频比特流的音频比特流片段，其中，该音频比特流片段包括指针部分，该指针部分具有指向该音频比特流片段的不同比特流元素的指针。该设备进一步被配置为从该指针部分识别增益指针，该增益指针指向用于该音频比特流的音频对象的增益和/或位置的第一比特流元素。该第一比特流元素可以是音频比特流片段的元素部分内的任何一个比特流元素。另外，该设备被配置为在呈现音频对象之前修改第一比特流元素的值(从而修改音频对象的增益和/或位置以用于呈现)。

根据另一方面，描述了一种用于实现来自音频比特流的音频内容的个性化的设备和/或装置，特别是编码设备。该设备被配置为接收音频比特流的音频比特流片段，其中，该音频比特流片段包括指针部分，该指针部分具有指向该音频比特流片段的元素部分的不同比特流元素的指针。该元素部分包括用于音频比特流的音频对象的增益和/或位置的第一比特流元素。该第一比特流元素可以是音频比特流片段的元素部分内的任何一个比特流元素。另外，该设备被配置为将指针部分内的完整性指针设置为预定的特殊值，其中，该预定的特殊值使得其防止解码器验证音频比特流片段的元素部分的完整性。

根据另一方面，描述了一种用于实现来自音频比特流的音频内容的个性化的设备和/或装置。该设备被配置为接收音频比特流的音频比特流片段，其中，该音频比特流片段包括具有不同比特流元素的元素部分。该元素部分包括用于音频比特流片段的音频对象的增益和/或位置的第一比特流元素。该第一比特流元素可以是音频比特流片段的元素部分内的任何一个比特流元素。该设备进一步被配置为将指向第一比特流元素的指针插入音频比特流片段的指针部分中(从而能够修改第一比特流元素的值以用于个性化)。

根据一个方面，描述了一种用于个性化音频内容(例如，来自或用于音频/视频体验的音频内容)的方法。该方法包括接收用于将要呈现的音频内容的清单文件。该清单文件包括参考音频比特流的至少一个自适应集合，该音频比特流包括多个音频对象。此外，该清单文件包括用于该自适应集合的多个不同的预选元素，其中，这些不同的预选元素指定该多个音频对象的不同组合。另外，该方法包括从该多个不同的预选元素中选择预选元素，以及引起取决于所选的预选元素的音频信号的呈现。

根据另一方面，描述了一种用于个性化来自音频比特流的音频内容的方法。该方法包括接收音频比特流的音频比特流片段，其中，该音频比特流片段包括指针部分，该指针部分具有指向该音频比特流片段的不同比特流元素的指针。另外，该方法包括从指针部分识别增益指针，该增益指针指向用于该音频比特流的音频对象的增益和/或位置的第一比特流元素。该方法进一步包括在呈现音频对象之前修改第一比特流元素的值。

根据另一方面，描述了一种用于实现来自音频比特流的音频内容的个性化的方法。该方法包括接收音频比特流的音频比特流片段，其中，该音频比特流片段包括指针部分，该指针部分具有指向该音频比特流片段的元素部分的不同比特流元素的指针，并且其中，该元素部分包括用于该音频比特流片段的音频对象的增益和/或位置的第一比特流元素。该方法进一步包括将指针部分内的完整性指针设置为预定的特殊值，其中，该预定的特殊值使得其防止解码器验证音频比特流片段的元素部分的完整性。

根据另一方面，描述了一种用于实现来自音频比特流的音频内容的个性化的方法。该方法包括接收音频比特流的音频比特流片段，其中，该音频比特流片段包括指针部分，该指针部分具有指向该音频比特流片段的元素部分的不同比特流元素的指针。该元素部分包括用于音频比特流的音频对象的增益和/或位置的第一比特流元素。该方法进一步包括将指向第一比特流元素的指针插入指针部分中。

应当注意，本文所述的方法可全部或部分地各自以软件和/或计算机可读代码的形式在一个或多个处理器上实施。

根据另一方面，描述了一种软件程序。该软件程序可以适于在处理器上执行并且当在处理器上执行时用于执行本文档中概述的方法步骤。

根据另一方面，描述了一种存储介质。该存储介质可以包括软件程序，该软件程序可以适于在处理器上执行并且当在处理器上执行时用于执行本文档中概述的方法步骤。

根据另一方面，描述了一种计算机程序产品。该计算机程序可以包括可执行指令，这些可执行指令当在计算机上执行时用于执行本文档中概述的方法步骤。

应当注意，如在本专利申请中概述的方法和系统、包括其优选实施例可以独立使用，或者与本文档中公开的其他方法和系统结合使用。此外，本专利申请中概述的方法和系统的所有方面可以任意组合。特别地，权利要求的特征可以以任意方式彼此组合。

附图说明

下面参照附图以示例性方式解释本发明，在附图中：

图1a示出了示例内容分发网络；

图1b示出了(基于HTTP的动态自适应流，DASH)清单(即媒体展示描述)文件的示例内容；

图1c示出了音频比特流内的音频成分或音频对象的示例展示；

图1d示出了音频比特流或媒体元素的示例初始化片段；

图1e示出了用于实现音频内容的个性化展示的示例自适应集合和示例预选；

图2a图示了用于实现音频内容的可扩展个性化的不同自适应集合和不同预选元素的组合使用；

图2b示出了清单文件的示例内容；

图3a示出了音频比特流片段或帧的示例部分；

图3b图示了比特流元素的可能值；

图4a示出了用于提供个性化的音频内容的示例方法(例如，由软件应用程序执行)的流程图；

图4b示出了用于提供个性化的内容的示例方法(例如，由软件应用程序执行)的流程图；

图4c示出了用于实现音频内容的个性化的示例方法(例如，由网络服务器执行)的流程图；以及

图4d示出了用于实现音频内容的个性化的示例方法(例如，由网络服务器执行)的流程图。

具体实施方式

如上所述，本文档涉及特别是使用HTML5和HTML5 API来向收听者提供可扩展的个性化的音频内容。在这种背景下，图1a示出了具有网络服务器101的示例内容分发(特别是广播)网络100，该网络服务器被配置为向内容接收器110提供音频和/或视频内容，特别是音频比特流121。网络服务器101可以由内容提供商操作。

内容接收器110包括终端111，该终端被配置为将视频和/或音频内容提供给解码器113并且随后提供给呈现单元114(例如扬声器)。此外，内容接收器110包括通常由内容提供商提供的应用程序112。应用程序112可以在硬件平台(其可以集成在电视机内)上执行。终端111和应用程序112可以经由应用程序编程接口122(例如，HTLM5 API)彼此通信。

内容接收器110可以使用单个计算实体(如电视机)来实施，或者内容接收器110可以在多个计算实体(例如，终端或浏览器111的实体和应用程序112的单独实体)内实施。

可以使用基于HTTP的动态自适应流(DASH)(特别是MPEG-DASH)协议将音频内容从服务器101提供给接收器110。DASH协议是一种自适应比特率流方案，它使得能够通过因特网从HTTP web服务器101流式传输媒体(特别是视频和/或音频)内容。DASH协议在ISO/IEC23009-1:2019信息技术—基于HTTP的动态自适应流(DASH)—第1部分：媒体展示描述和片段格式中有详细说明(参见https://www.iso.org/standard/79329.html)，该文件通过引用并入本文。

DASH协议使得能够将音频比特流121(用于媒体元素)从服务器101传输到接收器110，其中，音频比特流121可以包括多个不同的音频成分或音频对象(例如，用于不同的语言、用于叙述性内容、用于背景音乐内容、用于音频效果内容等)。此外，DASH协议使得能够定义不同的展示，这些展示指定一个或多个不同音频成分或音频对象的不同组合。展示可以指定

·来自多个不同的音频对象的要联合呈现的一个或多个音频对象；和/或

·如何将一个或多个音频对象混合在一起以进行呈现。

用于定义展示或音频体验的可能方式是所谓的自适应集合和/或所谓的预选元素(如图1e所示)。DASH协议允许将不同的音频对象(例如，用于不同的语言)指配给不同的自适应集合180。自适应集合180可以包括一个或多个音频成分或音频对象181(例如，结合在音频(比特)流内)。例如，不同的自适应集合180可以用于为不同的收听者群体定义不同的音频对象181、182集合(例如，用于不同的语言)。为了减少音频比特流121所需的带宽，比特流121可以仅包括可用于特定视频和/或音频内容(或媒体元素)的自适应集合180的总数的子集。

用于定义展示或音频体验的另一种方式是预选元素190。预选指定了一个或多个音频对象181、182(来自自适应集合180)以及元数据集合191，该元数据集合指定如何将一个或多个音频对象181混合在一起。特别地，预选可以指定如何将单个自适应集合180的一个或多个音频对象181、182混合在一起。通过为不同的预选元素190提供不同的元数据集合191，可以以比特率高效的方式指定不同的展示(例如，对叙述性内容或音乐和/或效果内容有不同的重视程度)。

DASH协议指定了所谓的清单文件，该清单文件是指示和描述包含在音频比特流121或媒体元素内的不同成分的XML文件。图1b示出了示例清单文件140，该清单文件指示用于多个不同展示的描述141，其中，可以根据特定的清单文件顺序142在清单文件140内列出用于不同展示的描述141。清单文件140可以提供用于音频比特流121或媒体元素内可用的每个不同展示的描述141。描述141可以被用户理解，因此可以使用户能够从音频比特流121中选择特定的展示以进行呈现。举例来说，清单文件140(特别是描述141)可以指示哪些语言可用和/或不同音频对象181、182的哪些类型的混合可用。

图1c图示了在音频比特流121内提供的或为媒体元素(例如，在音频比特流121的自适应集合180内)提供的音频对象181的示例集合150。可以通过单独提供启用(虚线框)或禁用(透明框)不同音频对象181的指示符153以高效的方式指定展示152。

图1d示出了音频比特流121的示例结构。音频比特流121可以包括初始化片段160，该初始化片段指定在音频比特流121内可用的不同展示152。特别地，初始化片段160可以包括指示可用的不同展示152的多个展示部分161。可以根据特定的片段顺序162在初始化片段160内提供展示部分161。

初始化片段160(特别是不同的展示部分161)可以指示所谓的音频轨道对象，其中，每个音频轨道对象对应于特定的展示152。基于初始化片段160和/或基于清单文件140中的一个或多个自适应集合和/或预选元素，(通过解析初始化片段160)可以生成用于对应的展示152列表的音频轨道对象列表。音频轨道对象列表可以根据片段顺序162(其可以与清单文件顺序142不同)来排序。

此外，音频比特流121通常包括媒体或比特流(特别是音频)片段170，这些媒体或比特流片段包括一个或多个音频对象181。与特定的展示152相关的音频比特流片段170(其也可以称为媒体片段)可以由用于展示152的展示部分161指示。音频比特流片段170可以对应于音频内容的某个时间片段(例如，对应于20ms的音频内容)。

如上所述，本文档旨在为用于提供音频轨道(即音频对象)的个性化接口提供机制，特别是在混合广播电视(HbbTV)环境的背景下。

术语“音频轨道”(或音频对象181)可以指表示来自HTML媒体元素<音频>或<视频>之一的单个音频轨道的接口。访问音频轨道181的可能用途是为了切换其“启用”属性153，以使轨道或对象181静音和取消静音。详细描述请参见https://html.spec.whatwg.org/ multipage/media.html#audiotrack或https://developer.mozilla.org/en-US/docs/ Web/API/AudioTrack，其内容并入本文。“音频轨道对象”可以被定义为由W3C定义的类别，以识别可以自行选择和/或播放的实体。

“文件音频轨道”可以是在ISO/IEC 14496-12中第3.1.19节(其内容并入本文)中定义的轨道。“文件音频轨道”包含由基本流组成的访问单元序列，如该文档的第8.3节中所定义的。“初始化片段”160可以被定义为字节序列，该字节序列包含对比特流或媒体片段170序列进行解码所需的所有初始化信息，例如，如在https://www.w3.org/TR/2016/REC- media-source-20161117/#init-segment中详细说明的，其内容并入本文。

音频轨道元素或音频轨道对象可以用于个性化。不同的个性化体验可以是从共同的音频对象181集合150得出的变体，其中一些音频对象181被打开或关闭。例如，如果英语版本的纪录片可以是混合了英语对话的音乐和效果轨道，则可以通过混合相同的音乐和效果轨道与德语对话而得出德语版本。

传统上，不同的个性化体验的混合很可能发生在位于制作工作室的调音台上。由于压缩技术的进步，下一代音频编解码器能够在一个音频比特流121中将所有不同的音频对象181直接提供给接收器110，这使得用户能够以灵活的方式在更大程度上选择和个性化体验。

接收器110的标准定义了向接收器110分发和发信号通知这样的多成分流121的功能。接收器110可以在类似于标准化web浏览器的软件环境中实施。本文档旨在从几种不同的可能展示152中选择一种体验(在本文也称为展示)152的功能，和/或旨在定义个人体验的可能性。

作为示例，为了在HbbTV浏览器中使用HTML5媒体元素进行回放，HTML5的W3C规范与HbbTV规范TS 102 796V1.4.1或更高版本(其通过引用并入本文)共同指定能够发现和选择单独展示152的接口。

本文档涉及实现用户对叙述重要性的控制和改进的可访问性，包括概述从电视机当前可用的功能可以提供的体验到未来电视机的更高级体验的可扩展方式。

特别地，本文档涉及将自适应集合180和预选元素190组合在单个清单文件140中。在图2a所示的一个示例中，用于标准音频混合的自适应集合281和用于叙述性音频混合的不同的自适应集合282可以与提供不同的叙述性混合的多个不同的预选元素291、292、293(以及标准音频混合的一个预选291)一起被提供。

自适应集合281、282可以被定义为包含一个或多个音频对象181、182的单独音频(比特)流。来自不同自适应集合281、282的不同音频流包括或提供不同的音频体验。例如，自适应集合281、282可以包括音频(比特)流，该音频(比特)流具有用于多种不同语言的多个音频对象181或单独对象181，该单独对象包括“标准”混合和仅包含叙述的基本元素的混合。每个自适应集合281、282可以包括语言和/或相同形式的混合多次。自适应集合281、282内的单独音频对象181可以使用不同的编解码器设置(例如，比特率)来实现自适应流。例如，用于西班牙语的自适应集合281、282可以例如包括分别为768kbit/s和48kbit/s的两个音频对象181，并且当连接到Wi-fi时，客户端110可以解码768kbit/s的音频对象181，而当连接到移动网络时，该客户端可以解码48kbit/s的音频对象181。

在当前的电视机中，可以支持音频轨道的应用程序级别选择，作为从不同的体验选项152的选择中展示体验152的基线。可用音频轨道的列表由客户端110(特别是应用程序112)从包含在清单文件140内的信息141生成。音频轨道(或音频轨道对象)的列表可以基于自适应集合281、282和/或基于预选元素291、292、293从清单信息141生成。

当应用程序112从网络服务器101请求回放媒体(即媒体元素，特别是媒体元素的音频比特流121)时，应用程序112将媒体元素(特别是音频比特流121)的清单文件140的URL传递给网络服务器101以进行媒体回放。可以从由URL指定的位置下载清单文件140，并且可以解析包含在清单文件140内的信息141。终端111可以被配置为从包括在清单文件140中的自适应集合281、282或者从自适应集合281、282和预选元素291、292、293创建音频轨道(即音频信号)。终端111可以使用接口122将创建的音频轨道提供给应用程序112以供选择。

如果仅使用自适应集合281、282，则可以提供来自不同自适应集合281、282的不同预定义体验152之间的切换。如图2a所示，可以单独从不同的自适应集合281、282提供的不同的体验可能彼此之间有很大的不同(如图2a中的三角形200所示)。为不同的音频体验152提供不同的自适应集合281、282通常需要为每个自适应集合281、282提供专用的音频(比特)流。因为在不同的自适应集合281、282内使用单独的音频流，所以不同的自适应集合281、282之间的切换可能会触发重新缓冲并且可能不允许无缝体验(当在不同的音频体验152之间切换时)。

在HbbTV 2.0.2第A2.12.1节(其内容通过引用并入本文)中详细说明了从预选元素291、292、293创建不同的音频轨道(即音频信号)。鉴于不同的预选元素291、292、293可以参考单个自适应集合281这一事实，不再需要单独的音频流来提供不同的体验152。此外，由于将相同的音频流被用于不同的体验152，因此不再需要重新缓冲，从而可以以无缝方式提供体验选择。

可以提供包括一个或多个自适应集合281、282和一个或多个预选元素291、292、293的组合的清单文件140。可以使用不同的自适应集合281、282来提供基本的开/关体验，并且可以使用一个或多个预选元素291、292、293(如图2a的下部部分所示)来提供从使用第一自适应集合281的第一体验到使用第二自适应集合282的第二体验的逐渐转移。特别地，可以使用预选元素291、292、293来提供细粒度的叙述重要性控制。

提供利用自适应集合281、282和预选元素291、292、293的组合的清单文件140可以实现开/关体验，以使用自适应集合281、282选择当前电视机的叙述焦点以及使用预选元素291、292、293在下一代电视上逐步进行高级选择。

如上所述，选择不同的自适应集合281、282会触发切换到不同的音频流(具有多个音频对象181)，该音频流随后被转发到解码器113以进行解码。当为给定的自适应集合281、282选择不同的预选元素291、292、293时，解码器112可以被重新配置为对所选的预选元素291、292、293进行解码(使用相同的音频对象181)。替代性地或另外地，当切换到不同的预选元素291、292、293时，可以触发音频对象181或音频流的切换。

图2b图示了示例清单文件140，其包括用于不同自适应集合281、282的数据元素211和用于不同预选的数据元素212。用于自适应集合281、282的数据元素211可以包括指针213，这些指针指向用于对应的自适应集合281、282的或用于对应的一个或多个预选的一个或多个数据元素212。

用户可以改变不同类别的一个或多个音频对象(包括对话、重要的音乐和效果(例如，枪声/关门声)、不太重要的音乐和效果1(例如，背景音乐、交通)、不太重要的音乐和效果2等)的音频增益181。

为了能够控制不同类别的音频对象181的增益，应用程序112可以被配置为修改音频比特流121中的一个或多个音频对象181的增益。为了能够修改增益，可以将指向用于每个音频对象181的增益的比特流元素304的指针303插入比特流121中，特别是插入不同的比特流或媒体片段170中(如图3a所示)。然后应用程序112可以使用指向用于音频对象181的增益的比特流元素304的指针303，以识别和修改该音频对象181的增益。比特流121的对应编码器可以被配置为添加指向帧或音频比特流片段170内的比特流元素304的指针303。应用程序112可以读取由编码器插入的指针信息，并且可以在将帧或音频比特流片段170传递给解码器113之前修改每个帧或音频比特流片段170(用于呈现)。通过这样做，用户能够精确定义个性化体验。

例如，应用程序112可以接收关于对话对象181应该被增强或衰减多少的用户输入(例如，这可以使用用户界面滑块来输入)。应用程序112使用指针303识别用于对话对象181的增益的比特流元素304。此外，增益可以被修改，并且可以将修改的帧或音频比特流片段170传递给解码器113。解码器113可以用修改的增益对帧或音频比特流片段170进行解码，并且可以使用修改的增益来呈现对话对象181。

应用程序级别的比特流级别修改可以利用应用程序112对比特流121的访问。这可能是在接口122上使用媒体源扩展(MSE)API时的情况。缓冲区内的AC-4帧或音频比特流片段170的起点可以通过解析缓冲区中的ISOBMFF(ISO/IEC基本媒体文件格式)文件结构来识别。

指向各个比特流元素304的数据指针303可以按每一帧来存储并且可以在实际AC-4帧之后的ISOBMFF样本中传送。如图3a所示，指针303可以在指针部分302内被提供，该指针部分位302于包括比特流元素304的元素部分301的后面。

以下句法可以用于定义指向用于音频对象181的增益和/或位置的比特流元素304的指针303：

for(i＝1；i<＝entry_count；i++){

unsigned int(8)kev；

unsigned int(16)frame_offset；

unsigned int(8)bitfield_length；

}

unsigned int(8)entry_count；

unsigned int(32)keyfield_id；

上述句法可以用于提供可选的唯一标识符“keyfield_id”，应用程序112可以使用该标识符来确定是否存在指向比特流元素304的指针303。

如果字段(field)“keyfield_id”不存在，则可以由比特流121的清单文件140指示指针数据的存在。

在上述句法中，字段“entry_count”可以用于计算有关ISOBMFF样本中添加了多少数据的信息。字段“entry_count”可以在为所添加的指针数据识别缓冲区中的起点(即第一个“键(key)”或指针303的位置)之前被读取。

键或指针303可以被指配给特定的AC-4比特流元素304，并且可以用于识别包含在键或指针303内的帧位置信息应用于哪个AC-4比特流元素304。“键”值表示的比特流元素304的位置可以由描述帧中特定数据元素的确切位置的“帧偏移(frame_offset)”和“比特字段长度(bitfield_length)”参数给出。

键或指针的指配优选地为应用程序112所熟知，并且可能存在一些可以考虑的特殊键或指针。示例键是

·键(Key)：0x00——EMDF散列。每一帧都经过散列处理，并且当帧的某个比特元素发生变化时，可能需要重新计算散列值；和/或

·key_id(键ID)：0x01——EMDF键ID。该指针305指向EMDF键ID。将此键值更改为特殊的key_id值0x06，将导致EMDF散列被忽略，并且EMDF散列不需要由应用程序112重新计算。因此，更改键305的值可以用作在帧上重新计算散列值的替代方案。需要注意的是，key_id 0x06也可以在编码器101中更改。

应用程序112可能需要知道用于各个混合数据的键，例如

·键：0x10——对话混合级别——对话的object_gain_value(对象增益值)；

·键：0x11——周围环境1混合级别——周围环境1混合的object_gain_value；

·键：0x12——周围环境2混合级别——周围环境2混合object_gain_value；

·键：0x13——周围环境3混合级别——周围环境3混合的object_gain_value；

·键：0x14——对象位置1；

·等等。

编辑键或指针使应用程序112能够通过将来自用户界面(UI)控制元素的映射应用到混合增益和/或对象位置的值来修改混合增益和/或对象位置。

通常对比特流元素304的object_gain_value进行编码的方式可能会产生问题，而该问题可以如下文所述来解决。0dB、-inf和“重复其他对象增益”的增益值通常以特殊方式进行编码，并且不占用比特流121中与一般对象增益相同的空间。这表明这些特殊值不能被一般对象增益所替换，并且由于一般对象增益例如不能取值0，因此一般增益不能取任意数字。如果需要对这种特殊值进行修改，则不可能单独替换数据元素并且需要重写比特流121。

因此，建议使用正增益或负增益对所有对象进行编码。然后可以选择增益，使得对于用户界面滑块的任何位置(即任何增益值)，都防止结果值为0dB。

作为示例：如果对话最大增强了3dB，则使用-4dB对该对话进行编码将始终确保非零值，从而导致在该字段上花费的比特数恒定不变。信号的电平可能会改变，这将通过将对白归一(dialnorm)正确设置为新响度来进行补偿(即，对于上述对话示例，如果内容是典型的(EBU R-128)内容，则使其有效地设置为-27dB)。

在另一示例中，可以添加特定规则集(函数)，该特定规则集根据输入值生成特定比特流元素304的值314。这使得在UI输入之间能够使用任意曲线和映射。

示例定义包括：

·OAMD—对象音频元数据(例如音频对象位置和增益)；和/或

·MDAT—ISO基本媒体文件(MP4文件)内的容器，其中存储媒体数据(例如音频帧)。基于ISO基本媒体文件的MOOV容器中所存储的偏移和长度信息来提取这些帧。

可以使用与上述基本和高级方案相同的方式来实施对AD对象的定位。然而，通过使用基本部分中描述的方法，每个可能的位置将成倍增加选项的数量，使得随着选项数量的增加，高级选择是优选的。

因此，描述了一种用于音频处理的应用程序控制方法。该方法包括至少接收自适应集合281、282。此外，该方法包括至少接收预选元素291、292、293。另外，该方法包括基于自适应集合281、282和预选元素291、292、293生成可用音频轨道(即音频信号)的列表。

应用程序112可以被配置为基于仅支持自适应集合281、282的呈现设备110上的一个或多个自适应集合281、282来提供基本的开/关体验。此外，应用程序112可以被配置为基于支持预选元素291、292、293(除自适应集合281、282之外)的呈现设备110上的预选元素291、292、293来提供细粒度的叙述重要性控制。

预选元素291、292、293可以是以下中的至少一种：对话、重要的音乐和效果(例如，枪声/关门声)、不太重要的音乐和效果1(例如，背景音乐、交通)、不太重要的音乐和效果2等。

此外，描述了一种用于读取比特流121和用于为比特流121的每个帧或音频比特流片段170创建比特流元素指针303的列表的方法和装置。如果比特流元素304被包含在比特流121内，则该方法可以包括确定比特流元素304的位置和长度。此外，该方法包括为该比特流元素304创建用户定义的键或指针303。

另外，描述了一种用于处理比特流121的方法。该方法包括接收比特流121。另外，该方法包括从比特流121中读取一个或多个指针303。此外，该方法可以包括基于一个或多个指针303来修改比特流121(特别是比特流121的一个或多个比特流元素304)，并且解码修改的比特流。比特流元素304可以是对象增益和/或对象位置。替代性地或另外地，比特流元素304可以是重新计算的散列，以保持比特流121的帧或内容片段170的完整性。替代性地或另外地，比特流元素304可以包括与被修改的散列相关的信息，使得解码器113忽略帧的完整性。

图4a示出了用于个性化音频内容的示例方法400的流程图。音频内容可以是音频/视频体验的一部分。特别地，音频内容可以是HTML5媒体元素的一部分。方法400可以由混合广播宽带电视(HbbTV)系统100内的应用程序112执行。

方法400可以包括接收401用于音频内容的清单文件140。清单文件140可以是基于HTTP的动态自适应流(DASH)清单文件。音频内容可以被包含在音频比特流121内。音频比特流121可以包括或者可以是AC-4音频比特流(如ETSI TS 103 190中详细说明的，其内容通过引用并入本文)。

清单文件140可以包括参考音频比特流121的至少一个自适应集合281、282，该音频比特流包括多个音频对象181。另外，清单文件140可以包括用于自适应集合281、282的多个不同的预选元素291、292、293。不同的预选元素291、292、293可以指定多个音频对象181的不同组合。特别地，不同的预选元素291、292、293可以指定用于混合多个音频对象181以形成要呈现的音频信号的不同方案。为此，不同的预选元素291、292、293可以包括不同的元数据集合191。

多个音频对象181可以包括用于对话和/或叙述性内容的音频对象181、用于音乐内容的音频对象181、和/或用于音频效果内容的音频对象181。不同的音频对象181可以根据所选的预选元素291、292、293进行混合，以向用户提供个性化的音频体验。

方法400可以进一步包括从多个不同的预选元素291、292、293中选择402预选元素291。该选择可以根据用户输入来执行。清单文件140可以包括对与多个不同的预选元素291、292、293中的每一个相关联的不同的音频(以及可能的视频)体验的描述141。描述141可以使用户能够选择适当的预选元素291、292、293进行呈现。

另外，方法400可以包括基于多个音频对象181和基于所选的预选元素291来确定用于呈现的音频信号。方法400可以进一步包括取得用于所确定的音频信号的至少一个音频比特流片段(或帧)170，和/或将用于呈现的所确定的音频信号的至少一个音频比特流片段170提供给解码器113。特别地，方法400可以包括引起403取决于所选的预选元素291(以及通常根据多个音频对象181中的一个或多个)的音频信号的呈现。

通过为自适应集合281、282提供不同的预选元素291、292、293，可以以高效的方式提供音频内容的细粒度个性化。

清单文件140可以包括参考第一音频比特流121的第一自适应集合281和参考第二音频比特流121的第二自适应集合292，该第一音频比特流包括第一音频对象集合181，该第二音频比特流包括第二音频对象集合181。第一自适应集合281可以提供第一音频体验，并且第二自适应集合282可以提供第二音频体验。此外，多个不同的预选元素291、292、293可以提供介于第一音频体验与第二音频体验之间一个或多个中间音频体验。特别地，与第二音频体验相比，第一音频体验可以对对话和/或叙述性内容表现出较低的重视程度。该一个或多个中间音频体验可以对对话和/或叙述性内容表现出重视程度，并且该重视程度介于第一音频体验的重视程度与第二音频体验的重视程度之间。通过为粗粒度的个性化提供不同的自适应集合和为细粒度的个性化提供不同的预选元素，可以以特别高效和灵活的方式提供音频内容的个性化。

第一音频对象集合181和第二音频对象集合181可以包括共同的音频对象集合181。另一方面，第一自适应集合281和第二自适应集合292在如何组合来自共同的音频对象集合181的音频对象181以形成用于呈现的音频信号方面不同。通过这样做，可以以高效的方式提供不同的音频体验。

图4b示出了用于个性化来自(媒体元素的)音频比特流121的音频内容的另一示例方法410的流程图。音频比特流121可以是音频/视频体验的一部分。方法410可以由HbbTV系统100内的应用程序112执行。

方法410可以包括接收411音频比特流121的音频比特流片段170。音频比特流片段170可以包括指针部分302，该指针部分具有指向音频比特流片段170的不同的比特流元素304的指针303。不同的比特流元素304可以位于音频比特流片段170的元素部分301中。指针部分302可以位于音频比特流121内，处于元素部分301的下游。

方法410进一步包括从指针部分302识别412增益指针303，该增益指针指向用于音频比特流121的音频对象181的增益和/或位置的第一比特流元素304。第一比特流元素304可以是音频比特流片段170的元素部分301内的任何一个比特流元素304。第一比特流元素304可以指示增益值(用于放大和/或衰减)和/或位置值(用于在空间中定位)，这可以用于将音频对象181混合到音频信号中，特别是用于以个性化的方式衰减或放大和/或定位音频对象181。

另外，方法410可以包括在呈现音频对象181之前修改413第一比特流元素304的值。然后，可以使用第一比特流元素304的修改值来呈现音频对象181。通过修改该值，可以以个性化的方式高度精确地修改音频对象181的重视程度和/或位置。

方法410可以包括在用户界面(例如，滑块)确定用户输入，其中，用户输入指示第一比特流元素304的用户值，该用户值已经由用户设置。方法410可以进一步包括将第一比特流元素304的值设置为用户值。通过使用户能够直接设置第一比特流元素304的值，可以以舒适和精确的方式实现音频内容的个性化。

方法410可以包括确定音频比特流片段170的元素部分301的修改散列值，该元素部分包括具有该修改值的第一比特流元素304。此外，方法410可以包括用修改散列值替换旨在指示元素部分301的完整性的、元素部分301的散列值，特别是元素部分301的散列比特流元素的散列值。通过修改散列值，可以以高效和可靠的方式确保音频比特流片段170由解码器113解码以进行呈现。

方法410可以包括验证指针部分302内的完整性指针305是指向散列比特流元素还是表现出预定的特殊值。预定的特殊值使得其防止解码器113验证音频比特流片段170的元素部分301的完整性(在对音频比特流片段170进行解码之前)。

方法410可以包括：如果确定完整性指针305指向散列比特流元素，则用修改散列值替换散列比特流元素的散列值，该修改散列值取决于第一比特流元素304的修改值。替代性地或另外地，方法410可以包括：如果确定完整性指针305表现出预定的特殊值，则保持散列比特流元素的散列值不变。通过这样做，可以以高效和可靠的方式确保音频比特流片段170由解码器113解码以进行呈现。

方法410可以包括：如果确定完整性指针305表现出预定的特殊值，则在解码和/或呈现音频比特流片段170时忽略散列比特流元素。通过这样做，可以以高效和可靠的方式确保音频比特流片段170由解码器113解码以进行呈现。

方法410可以包括，在识别增益指针303之前，特别基于指针部分302和/或基于音频比特流121的清单文件140来确定是否存在指向第一比特流元素304的指针303。如果确定存在指针303，则可以仅识别第一比特流元素304以及修改第一比特流元素304的值。通过这样做，可以提高个性化的效率。

优选地修改第一比特流元素304的值，使得用有效增益值和/或位置值替换第一比特流元素304。

可以从数据集的指针部分302识别增益指针303，该数据集对应音频比特流121的活动预选元素291、292、293。

图4c示出了用于实现来自音频比特流121的音频内容的个性化的方法420的流程图。音频比特流121可以是音频/视频体验和/或媒体元素的一部分。方法420可以由编码器或转码器(例如在网络服务器101内)执行。

方法420可以包括接收421音频比特流121的音频比特流片段170，其中，音频比特流片段170包括指针部分302，该指针部分具有指向音频比特流片段170的元素部分301的不同比特流元素304的指针303。元素部分301包括用于比特流元素170的音频对象181的增益和/或位置的第一比特流元素304。第一比特流元素304可以是音频比特流片段170的元素部分301内的任何一个比特流元素304。

另外，方法420包括将指针部分302内的完整性指针305设置422为预定的特殊值，其中，该预定的特殊值使得其防止解码器113验证音频比特流片段170的元素部分301的完整性。通过这样做，可以在应用程序112处以可靠和高效的方式实现音频内容的个性化。

图4d示出了用于实现来自音频比特流121的音频内容的个性化的示例方法430的流程图。音频比特流121可以是音频/视频体验和/或媒体元素的一部分。方法430可以由编码器或转码器(例如，在网络服务器101内)执行。

方法430包括接收431音频比特流121的音频比特流片段170。音频比特流片段170可以包括具有不同比特流元素304的元素部分301。特别地，音频比特流片段170可以包括指针部分302，该指针部分具有指向音频比特流片段170的元素部分301的不同比特流元素304的指针303。元素部分301可以包括用于比特流元素170的音频(比特)流181的增益和/或位置的第一比特流元素304。第一比特流元素304可以是音频比特流片段170的元素部分301内的任何一个比特流元素304。

此外，方法430包括将指向第一比特流元素304的指针303插入432指针部分302中，从而使应用程序112能够识别第一比特流元素304并修改增益和/或位置值以用于音频内容的个性化。

此外，描述了被配置为分别执行方法400、410、420、430的设备和/或装置112、101。

本领域普通技术人员能够很容易地明白对本公开中所描述实施方式的各种修改。在不脱离本公开的精神或范围的情况下，可以将本文所限定的一般原理应用于其他实施方式。因此，权利要求并不旨在局限于本文所示出的实施方式，而是符合与本公开内容、本文所公开的原理和新颖特征一致的最宽范围。

本文档中描述的方法、设备、装置和/或系统可以被实施为软件、固件和/或硬件。某些部件可以例如被实施为在数字信号处理器或微处理器上运行的软件。其他部件可以例如被实施为硬件和/或专用集成电路。所描述的方法和系统中遇到的信号可以存储在如随机存取存储器或光学存储介质等介质上。这些信号可以经由如无线电网络、卫星网络、无线网络或有线网络(例如，因特网)等网络来传输。利用本文档中描述的方法和系统的典型设备是用于存储和/或呈现音频信号的便携式电子设备或其他消费设备。

Claims

1.一种用于个性化音频内容的方法(400)，其中，所述方法(400)包括

-接收(401)用于所述音频内容的清单文件(140)；其中，所述清单文件(140)包括

-参考音频比特流(121)的至少一个自适应集合(281，282)；其中，所述音频比特流(121)包括多个音频对象(181)；以及

-用于所述自适应集合(281，282)的多个不同的预选元素(291，292，293)；其中，所述不同的预选元素(291，292，293)指定所述多个音频对象(181)的不同组合；

-从所述多个不同的预选元素(291，292，293)中选择(402)预选元素(291)；以及

-引起(403)取决于所选的预选元素(291)的音频信号的呈现。

2.如权利要求1所述的方法(400)，其中，

-所述清单文件(140)包括参考第一音频比特流(121)的第一自适应集合(281)和参考第二音频比特流(121)的第二自适应集合(292)，所述第一音频比特流包括第一音频对象集合(181)，所述第二音频比特流包括第二音频对象集合(181)；

-所述第一自适应集合(281)提供第一音频体验，并且所述第二自适应集合(282)提供第二音频体验；以及

-所述多个不同的预选元素(291，292，293)提供介于所述第一音频体验与所述第二音频体验之间的一个或多个中间音频体验。

3.如权利要求2所述的方法(400)，其中，

-与所述第二音频体验相比，所述第一音频体验对对话和/或叙述性内容表现出更低的重视程度；以及

-所述一个或多个中间音频体验对所述对话和/或叙述性内容表现出重视程度，并且所述重视程度介于所述第一音频体验的重视程度与所述第二音频体验的重视程度之间。

4.如权利要求2至3中任一项所述的方法(400)，其中，

-所述第一音频对象集合(181)和所述第二音频对象集合(181)包括共同的音频对象集合(181)；以及

-所述第一自适应集合(281)和所述第二自适应集合(292)在如何组合来自所述共同的音频对象集合(181)的音频对象(181)以形成用于呈现的所述音频信号方面不同。

5.如前述权利要求中任一项所述的方法(400)，其中，所述多个音频对象(181)包括

-用于对话和/或叙述性内容的音频对象(181)；

-用于音乐内容的音频对象(181)；和/或

-用于音频效果内容的音频对象(181)。

6.如前述权利要求中任一项所述的方法(400)，其中，所述清单文件(140)包括对与所述多个预选元素(291，292，293)中的每一个相关联的音频体验的描述(141)。

7.如前述权利要求中任一项所述的方法(400)，进一步包括

-取得用于所述音频信号的至少一个音频比特流片段(170)；和/或

-将用于呈现的所述音频信号的至少一个音频比特流片段(170)提供给解码器(113)。

8.如前述权利要求中任一项所述的方法(400)，其中，所述清单文件(140)是基于HTTP的动态自适应流DASH清单文件。

9.一种用于个性化来自音频比特流(121)的音频内容的方法(410)，其中，所述方法(400)包括

-接收(411)所述音频比特流(121)的音频比特流片段(170)；其中，所述音频比特流片段(170)包括指针部分(302)，所述指针部分具有指向所述音频比特流片段(170)的不同比特流元素(304)的指针(303)；

-从所述指针部分(302)识别(412)增益指针(303)，所述增益指针指向用于所述音频比特流片段(170)的音频对象(181)的增益和/或位置的第一比特流元素(304)；以及

-在呈现所述音频对象(181)之前修改(413)所述第一比特流元素(304)的值。

10.如权利要求9所述的方法(410)，其中，所述方法(410)进一步包括使用所述第一比特流元素(304)的修改值来呈现所述音频对象(181)。

11.如权利要求9至10中任一项所述的方法(410)，其中，所述方法(410)包括

-在用户界面确定用户输入；其中，所述用户输入指示所述第一比特流元素(304)的用户值，所述用户值已经由用户设置；以及

-将所述第一比特流元素(304)的值设置为所述用户值。

12.如权利要求9至11中任一项所述的方法(410)，其中，所述方法(410)包括

-确定所述音频比特流片段(170)的元素部分(301)的修改散列值，所述元素部分包括具有所述修改值的所述第一比特流元素(304)；以及

-用所述修改散列值替换旨在指示所述元素部分(301)的完整性的、所述元素部分(301)的散列值，特别是所述元素部分(301)的散列比特流元素的所述散列值。

13.如权利要求9至12中任一项所述的方法(410)，其中，所述方法(410)包括

-验证所述指针部分(302)内的完整性指针(305)是指向散列比特流元素还是表现出预定的特殊值；

-如果确定所述完整性指针(305)指向所述散列比特流元素，则用修改散列值替换所述散列比特流元素的散列值，所述修改散列值取决于所述第一比特流元素(304)的所述修改值；以及

-如果确定所述完整性指针(305)表现出所述预定的特殊值，则保持所述散列比特流元素的散列值不变。

14.如权利要求13所述的方法(410)，其中，所述方法(410)包括如果确定所述完整性指针(305)表现出所述预定的特殊值，则在解码和/或呈现所述音频比特流片段(170)时忽略所述散列比特流元素。

15.如权利要求9至14中任一项所述的方法(410)，其中，所述指针部分(302)位于所述音频比特流(121)内，处于包括所述第一比特流元素(304)的元素部分(301)的下游。

16.如权利要求9至15中任一项所述的方法(410)，其中，所述方法(410)包括，在识别所述增益指针(303)之前，特别基于所述指针部分(302)和/或基于与所述音频比特流(121)相关联的清单文件(140)来确定是否存在指向所述第一比特流元素(304)的指针(303)。

17.如权利要求9至15中任一项所述的方法(410)，其中，从数据集的所述指针部分(302)识别所述增益指针(303)，所述数据集对应于所述音频比特流(121)的活动预选元素(291，292，293)。

18.如前述权利要求中任一项所述的方法(400)，其中，所述方法(400，410)由混合广播宽带电视HbbTV系统(100)内的应用程序(112)执行。

19.一种用于实现来自音频比特流(121)的音频内容的个性化的方法(420)，其中，所述方法(420)包括

-接收(421)所述音频比特流(121)的音频比特流片段(170)；其中，所述音频比特流片段(170)包括指针部分(302)，所述指针部分具有指向所述音频比特流片段(170)的元素部分(301)的不同比特流元素(304)的指针(303)；其中，所述元素部分(301)包括用于所述音频比特流片段(170)的音频对象(181)的增益和/或位置的第一比特流元素(304)；以及

-将所述指针部分(302)内的完整性指针(305)设置(422)为预定的特殊值；其中，所述预定的特殊值使得其防止解码器(113)验证所述音频比特流片段(170)的所述元素部分(301)的完整性。

20.一种用于实现来自音频比特流(121)的音频内容的个性化的方法(430)，其中，所述方法(430)包括

-接收(431)所述音频比特流(121)的音频比特流片段(170)；其中，所述音频比特流片段(170)包括具有不同比特流元素(304)的元素部分(301)；其中，所述元素部分(301)包括用于所述音频比特流片段(170)的音频对象(181)的增益和/或位置的第一比特流元素(304)；以及

-将指向所述第一比特流元素(304)的指针(303)插入(432)所述音频比特流片段(170)的指针部分(302)中。

21.一种用于个性化音频内容的设备(112)，特别是应用程序单元，其中，所述设备(112)被配置为

-接收用于所述音频内容的清单文件(140)；其中，所述清单文件(140)包括

-从所述多个不同的预选元素(291，292，293)中选择预选元素(291)；以及

-引起取决于所选的预选元素(291)的音频信号的呈现。

22.一种用于个性化来自音频比特流(121)的音频内容的设备(112)，特别是应用程序单元，其中，所述设备(112)被配置为

-接收所述音频比特流(121)的音频比特流片段(170)；其中，所述音频比特流片段(170)包括指针部分(302)，所述指针部分具有指向所述音频比特流片段(170)的不同比特流元素(304)的指针(303)；

-从所述指针部分(302)识别增益指针(303)，所述增益指针指向用于所述音频比特流(121)的音频对象(181)的增益和/或位置的第一比特流元素(304)；以及

-在呈现所述音频对象(181)之前修改所述第一比特流元素(304)的值。

23.一种用于实现来自音频比特流(121)的音频内容的个性化的设备(101)，特别是编码设备，其中，所述设备被配置为

-接收所述音频比特流(121)的音频比特流片段(170)；其中，所述音频比特流片段(170)包括指针部分(302)，所述指针部分具有指向所述音频比特流片段(170)的元素部分(301)的不同比特流元素(304)的指针(303)；其中，所述元素部分(301)包括用于所述音频比特流片段(170)的音频对象(181)的增益和/或位置的第一比特流元素(304)；以及

-将所述指针部分(302)内的完整性指针(305)设置为预定的特殊值；其中，所述预定的特殊值使得其防止解码器(113)验证所述音频比特流片段(170)的所述元素部分(301)的完整性。

24.一种用于实现来自音频比特流(121)的音频内容的个性化的设备(101)，特别是编码设备，其中，所述设备(101)被配置为

-接收所述音频比特流(121)的音频比特流片段(170)；其中，所述音频比特流片段(170)包括具有不同比特流元素(304)的元素部分(301)；其中，所述元素部分(301)包括用于所述音频比特流片段(170)的音频对象(181)的增益和/或位置的第一比特流元素(304)；以及

-将指向所述第一比特流元素(304)的指针(303)插入所述音频比特流片段(170)的指针部分(302)中。